[Σ]Sukarabe's Easy Living: PDFからテキスト部分を抽出

« 一票の格差 | メイン | Mac OS Xにtex2pageをインストール »

2005年08月10日（水曜日）

PDFからテキスト部分を抽出 [ コンピュータ＆インターネット ]

仕事で原稿の取りまとめをしなくてはならない。書き直しなどの作業を効率的に行うために，ワープロなどで書く人には，一緒にテキストファイルもくれるように伝えてあるのだが，Sa氏だけがPDF(苦笑)。どうやらAppleWorksとかいうソフトで書いているようなのだが，テキストで保存とかできないのかなあ。それともそういうことを知らないのかも。しかも本人はPDFからテキスト抽出できるんじゃないの，とか事もなげにいう(笑)。ところがMac OS XではPreviewもAcrobat Reader(無料のやつね)もテキストとして保存というメニューがないのだ。まあ，ページ毎に全部を選択してTeXShopに貼り付ければテキスト部分はちゃんとコピーされるから良いのだが，ページ毎というのが少々面倒だなあ。

ということで例によって検索。やれやれ。pdf2txt というPerlスクリプトや Xpdf などが見つかる。XpdfはX Window 用のプログラムだが必要となるのは付属の pdftotext で，これは普通にターミナルから使えるようだ。Windows用にはバイナリーがあるようだし，日本語もOKみたいだが，Mac OS X 用は自分でコンパイルすることになりそう。とりあえず参考サイトをメモしておいてインストールは後日に。
PDFファイルからテキストを取り出す
 PDF関連
 EPrintsで日本語コンテンツの全文検索を実現する(pdftotextのUNIXでのインストール)
Mac OS X ソフトウェア導入記録
 全文検索システムNamazuをMacOSXで使ふ

投稿者 sukarabe : 2005年08月10日 08:09

トラックバック

このエントリーのトラックバックURL:
http://njet.oops.jp/cgi/mt/mt-tb-alt.cgi/736

コメントしてください

comment spam対策のため，名前とメールの入力が必須になっていますが，メールアドレスは公開されません。Web SiteのURLは任意です。Type Key IDをお持ちの方はType Keyをサイン・インしてくださってもいいです。

Sukarabe's Easy Living

私sukarabe（すからべ）の日々の日記です。

2005年08月10日（水曜日）

PDFからテキスト部分を抽出 [ コンピュータ＆インターネット ]

トラックバック

コメント

コメントしてください