« 一票の格差 | メイン | Mac OS Xにtex2pageをインストール »

2005年08月10日(水曜日)

PDFからテキスト部分を抽出 [ コンピュータ&インターネット ]

仕事で原稿の取りまとめをしなくてはならない。書き直しなどの作業を効率的に行うために,ワープロなどで書く人には,一緒にテキストファイルもくれるように伝えてあるのだが,Sa氏だけがPDF(苦笑)。どうやらAppleWorksとかいうソフトで書いているようなのだが,テキストで保存とかできないのかなあ。それともそういうことを知らないのかも。しかも本人はPDFからテキスト抽出できるんじゃないの,とか事もなげにいう(笑)。ところがMac OS XではPreviewもAcrobat Reader(無料のやつね)もテキストとして保存というメニューがないのだ。まあ,ページ毎に全部を選択してTeXShopに貼り付ければテキスト部分はちゃんとコピーされるから良いのだが,ページ毎というのが少々面倒だなあ。

ということで例によって検索。やれやれ。pdf2txt というPerlスクリプトや Xpdf などが見つかる。XpdfはX Window 用のプログラムだが必要となるのは付属の pdftotext で,これは普通にターミナルから使えるようだ。Windows用にはバイナリーがあるようだし,日本語もOKみたいだが,Mac OS X 用は自分でコンパイルすることになりそう。とりあえず参考サイトをメモしておいてインストールは後日に。
PDFファイルからテキストを取り出す
PDF関連
EPrintsで日本語コンテンツの全文検索を実現する(pdftotextのUNIXでのインストール)
Mac OS X ソフトウェア導入記録
全文検索システムNamazuをMacOSXで使ふ

投稿者 sukarabe : 2005年08月10日 08:09

トラックバック

このエントリーのトラックバックURL:
http://njet.oops.jp/cgi/mt/mt-tb-alt.cgi/736

コメント

コメントしてください

comment spam対策のため,名前とメールの入力が必須になっていますが,メールアドレスは公開されません。Web SiteのURLは任意です。Type Key IDをお持ちの方はType Keyをサイン・インしてくださってもいいです。




保存しますか?