自炊PDFの加工メモ – Sukarabe's Easy Living

Hardy-WrightのAn Introduction to The Theory of NumbersのPDF化が完了し，bookscanのサイトからダウンロードした。450ページで150MBほど。これをモノクロ化した。Macで利用できるツール探しから始めたので，けっこう時間かかった。以下，その手順。本のファイル名は hr.pdfとする。

AcrobatでPDFを開き，ページ毎にTIFF形式の画像ファイルにして保存。hr_Page_001.tiffからhr_Page_450.tiffまでの450個のファイルが出来る。
XNViewMP.app, XNConv.app の配布サイトから nconvert というUNIX プログラムをダウンロードしておく。パスの通っている適当な場所(/usr/local/bin など)に移動。
XNViewMP.appで画像を開き，ガンマ補正などのパラメーターを決める。今回は，コントラスト20，ガンマ0.40に決めた。
ターミナルを開き，画像ファイルのある階層に行く。nconvertを使って，すべてのページをモノクロにするのだが，まずは200％に拡大し，それから画像補正(コントラスト，ガンマなど)，しかるのちに，階調を64(6 bit)から順に半分ずつにして2bitまで下げ，最後に白黒2値(1bit)に落とす。具体的には，次のようにする。
nconvert -ratio -rtype lanczos -resize 200% 200% -contrast 20 -gamma 0.4 -dither -grey 64 -dither -grey 32 -dither -grey 16 -dither -grey 8 -dither -grey 4 -binary nodither *.tiff
変換された画像を結合する。Acrobatを開いて，hr_Page_001.tif からhr_Page_450.tif までを1つのPDFにまとめ，適当なファイル名で保存。ここでは hr_mono.pdf とする。なお，TIFFの読み込みについては，デフォルトではJBIG2のロスレスでの圧縮になっていたが，これだと表示に時間かかるみたいなので，CCITTでの圧縮に変更した。もっとも，あとでPDF/Xにするなら，ここは気にしなくても良いかも。
このままでも良いが，OCR処理する。画像は元のまま(exact)としたが，300dpiでダウンサンプリングしても良いかも。hr_mono_ocr.pdf として保存。
OCRかけると，なぜかMacのPreviewで読むとき，スクロールが非常に重たい。そこで，PDF/Xに変換する。デフォルトのX1aのタイプにしたが，違いはよく分からない。hr_mono_ocr_x1a.pdf として保存。

以上で完了。最後のPDF/X化をすることで，スクロールが非常にスムーズになり，快適。ファイルサイズも30MBくらいだし，文字もくっきりと黒くなって，とても読みやすくなった。

コメントを残す