自炊PDFの加工メモ

Hardy-WrightのAn Introduction to The Theory of NumbersのPDF化が完了し,bookscanのサイトからダウンロードした。450ページで150MBほど。これをモノクロ化した。Macで利用できるツール探しから始めたので,けっこう時間かかった。以下,その手順。本のファイル名は hr.pdfとする。

  1. AcrobatでPDFを開き,ページ毎にTIFF形式の画像ファイルにして保存。hr_Page_001.tiffからhr_Page_450.tiffまでの450個のファイルが出来る。
  2. XNViewMP.app, XNConv.app の配布サイトから nconvert というUNIX プログラムをダウンロードしておく。パスの通っている適当な場所(/usr/local/bin など)に移動。
  3. XNViewMP.appで画像を開き,ガンマ補正などのパラメーターを決める。今回は,コントラスト20,ガンマ0.40に決めた。
  4. ターミナルを開き,画像ファイルのある階層に行く。nconvertを使って,すべてのページをモノクロにするのだが,まずは200%に拡大し,それから画像補正(コントラスト,ガンマなど),しかるのちに,階調を64(6 bit)から順に半分ずつにして2bitまで下げ,最後に白黒2値(1bit)に落とす。具体的には,次のようにする。
    nconvert -ratio -rtype lanczos -resize 200% 200% -contrast 20 -gamma 0.4 -dither -grey 64 -dither -grey 32 -dither -grey 16 -dither -grey 8 -dither -grey 4 -binary nodither *.tiff
  5. 変換された画像を結合する。Acrobatを開いて,hr_Page_001.tif からhr_Page_450.tif までを1つのPDFにまとめ,適当なファイル名で保存。ここでは hr_mono.pdf とする。なお,TIFFの読み込みについては,デフォルトではJBIG2のロスレスでの圧縮になっていたが,これだと表示に時間かかるみたいなので,CCITTでの圧縮に変更した。もっとも,あとでPDF/Xにするなら,ここは気にしなくても良いかも。
  6. このままでも良いが,OCR処理する。画像は元のまま(exact)としたが,300dpiでダウンサンプリングしても良いかも。hr_mono_ocr.pdf として保存。
  7. OCRかけると,なぜかMacのPreviewで読むとき,スクロールが非常に重たい。そこで,PDF/Xに変換する。デフォルトのX1aのタイプにしたが,違いはよく分からない。hr_mono_ocr_x1a.pdf として保存。

以上で完了。最後のPDF/X化をすることで,スクロールが非常にスムーズになり,快適。ファイルサイズも30MBくらいだし,文字もくっきりと黒くなって,とても読みやすくなった。

Hardy-Wright Page 238

コメントを残す

メールアドレスが公開されることはありません。