コンピュータ

MacOSX上のAcrobatによるOCRでの文字化け対策

諸般の事情で、MacのPreviewで快適に見るには、やはり自前でOCR処理できなくちゃなあということで、ちょっこし実験してみた。ところが、のっけから文字化けで、参ったのなんのって。

文字認識はしているようなのであった。検索しまくった結果、次のページを発見。

MacOSX 上の Acrobat の OCR の奇妙な文字化けに対処する

正にワタシと同じ状況!そうなのだ。UTF-8にされちゃっているのだ。ということで、上記記事に従って、~/.MacOSX/environment.plist を見てみると、案の定 LANG変数は UTF-8 に設定してある。しかし、これを自分で設定した記憶がない。デフォルトでこうなってるんじゃなかったのかなあ。ううむ。

ともあれ、これを削除してみた。再起動させてから、おもむろに Acrobat 9 を起動し、OCR処理させてみたところ、文字化けせずにちゃんと認識できた。

ということで、一件落着。2時間無駄にしたけどな 😉 それにしても、LANG変数、いつ設定したのだろうか。というか、削除して他のアプリに影響ないのかなあ。ちょっと心配。

おお、これが画像処理の威力なのか!

昔の本の場合、紙焼けしてたりするので、スキャンしたままだとかなり目立つ。まあ、これはこれで味があって良いかもだし、読むのにそんなに支障があるかと言えば、大したことはないようにも思う。しかし、調べてみると、割と簡単な画像処理で補正できるらしいのである。試しに実験したので、メモ。

残念なことに、Mac OS X で適当なプログラムを見つけることが出来なかった。もちろん、GIMP(無料)とかPhotoShop(有料)とか使えば出来るに違いないのだが、カラーでスキャンした紙焼けの書籍を一括して(つまりバッチ処理)読みやすくモノクロに変換するという今の目的をお手軽にこなすという意味では、Windowsに軍配を上げざるを得ない状況のようだ。

ということで、使用したのは「藤 -Resizer-」というプログラム。ファイルを選択してドロップすれば、一括処理してくれる。

設定パラメーターは「漫画をスキャナで電子書籍化する初心者向け自炊解説サイト」の中の「スキャンした画像の加工」という記事に全面的に依存した。

サンプルとして選んだのは、大学初年級の参考書「詳解・微積分演習 I」のとあるページ。ちなみにこの第2巻、誰かに貸したままで戻ってきてないのである。返してくれ〜(笑)。

さて、処理前の画像がこれ。

補正前の画像

これを白色化閾値=225、正規化範囲=70/255、輝度範囲=-100/300、コントラスト補正値=1.1、相対ガンマ値=1.4、白黒化手法2、にて処理したものが次の画像。

補正後の画像

おお、と思わず声を上げてしまった。す、素晴しいじゃないですか!とりあえず、というか、ワタシの場合、これで満足です。

あとは、すべてのページをこれで処理して、再びPDFにするか、あるいはJPGのままZIPでアーカイブするか。まあ、この本は読まないだろうが(笑)、Mumford先生の謄写版刷りの本 (裁断する勇気があるか? 😯 ) などでやれば効果抜群かもしれない。

PDFから画像ファイルを取り出す

[ 備忘録 ] 書籍をスキャンしたPDFの画像補正のためのメモ。

PDFといっても書籍をスキャンしてできるファイルの場合、中身は画像ファイルであり、PDFは単なるコンテナーでしかない。それを取り出すのが目的。MacのPreviewなどから取り出すことも可能だが、できれば劣化させないで、そのままを取り出したい。あれこれ調べた結果、pdfimages で出来るようだ。それには xpdf というパッケージ(?)をインストールしなくてはならい。

以下は、Mac OS X の MacPorts でインストールする場合の手順。

sudo port install xpdf

とすればオッケー。hoge.pdf からJPGファイル群を取り出すには、

pdfimages -j hoge.pdf foo

とかすれば、foo-000.jpg, foo-001.jpg, 等々と連番でファイルが生成される。

チェスのPGN関係メモ

iPhoneのチェスプログラム tChess Pro が コメント付きPGN(チェスの棋譜) をきちんと解読できないようなので、コメントを削除するプログラムを書きたい。ちょっと検索したところ、Chess PGN関係のPerlモジュールがCPANにあるようだ。ということで、メモ。

http://search.cpan.org/~gmax/Chess-PGN-Parse-0.19/

Twitterドラマ

おととい、新番組のドラマを観た。のだめ出演の二人が出ているらしいということで観たのだが、小道具として Twitter (トゥウィッター、ツウィッター、トゥイッター、ツイッター、どれが正しい表記なのか?笑) が使われていて、おやまあとか思った。別に twitter でなくても mixi でも掲示板でもフォーラムでも良さそうな設定ではあったが。

ドラマ自体はまあ若者向けで、ワタシなどはどうもねえだが、ライカM3じゃなかった、何だっけ M7 だっけ、とか小道具に余念がないのは面白かった。こういう青春時代をおくってみたかったかどうかは微妙だが、ワタシには全く縁のないことばかりではあるなあ。

さてさて、twitter であるが、リアルの知りあいが3人しか居なくてとても寂しい(笑)。一人はえらく昔にアカウント取っただけで完全黙秘状態だし(苦笑)。まあ、twitterが活用できるような生活パターンではないということかも知れぬ。とりあえずTime Line上に未読が数百件も並ぶのは鬱陶しいので、フォローをいくつかはずしてみようかと思う。いや、非常に後ろ向きな対策ですなあ。やれやれ。

MySQL5へ移行

WordPress (この日記で使っているブログツール) を最新の 2.9.2 にバージョンアップしようとしたら,MySQL4.2 以上でないとダメという警告が出てアップ出来なかった。調べてみると,現在使用中のバージョンは4.0.22 だった。レンタルサーバーのサイトに行くと,MySQL 5 に移行できるとあったので,おっかなびっくり移行してみた。まずは,現状のデータベースをバックアップ。そして MySQL 5 を暫定使用。大丈夫そうなので,このまま移行できそうな感じ。

WindowsでのTeX環境

普段はMacだし、たまにUbuntu上で作業するくらいで、WindowsでTeXをすることがほとんどなかった。ちょっと事情があって、Windows上にTeXシステムを導入しているのだが、最新のシステムは以前と違うことが色々あるのでメモ。

以前は、Windows上のTeXと言えば、文書の文字コードはShift-JIS、dviのプレビューはdvioutというのが定番だった。もちろん今でもそれで作業している人が多いようだが、その他の選択肢が可能になっている。

文字コードに関しては、UTF-8も使える。文字コードの自動判別はしないので、コンパイル時に指定する必要があるが。これで、Macと同じファイルが使える。

Windows上のTeXと言えばdvioutが定番のプレビューアーであるが、実は使いたくない事情がある。TeXシステムは外付けのHDDに入れて、ポータブルに使いたいのである。dvioutはシステムのレジストリーをいじるので、ポータブルに使えないのだ。ということで、 dvipdfmx あるいは dvips を用いて PDF を作成することになる。これらも Mac 上と同じく Map ファイルを設定すれば問題なく使える。

さて、以上の作業をエディター上で簡単に行うには、いわゆる統合環境が便利。ここで少々問題が発生。候補としてはWinShellとTeXWorksがあるのだが、WinShellは文字コードShift-JISのみをサポートしていて、UTF-8での編集ができない(多分)。(【訂正】オプションのフォントから文字コードを選択できた。UTF-8も可能。)
一方のTeXWorksはUTF-8が標準で、Shift-JISはサポートされていない。ううむ。

まあ、Macと同じUTF-8が使えるTeXWorksをメインにしますか。実はTeXWorksはMacのTeXShopを範としてクロスプラットフォーム用に開発されたもので、Windows用だけでなくLinux用、Mac OS X用もある。PDFプレビュー機能もあるから、Adobe Readerを頼ることなく、TeXWorks内でコンパイルからプレビューまで行える。(日本語フォントを埋め込むようにMapファイルを設定するこが前提だが。) このあたりの使い心地は TeXShop とほとんど同じ。

それにしても、文字コードはいつになっても悩みの種。自分だけならUTF-8で良いのだが、同僚は未だにShift-JIS派が多い。困ったもんだ。

MacTeX導入 & Asymptoteでアニメーション

Asymptoteでアニメーション

AsymptoteでGIFアニメが作れるらしいので、少し実験。といっても、サンプルをダウンロードしてきてコンパイルしただけなのだが。しかし、animate.sty というLaTeX スタイルファイルを利用するものは、e-TeX 拡張された pdfTeX その他が必要らしく、日本語化されたpTeXではコンパイルできなかった。

しばし迷った末に決断 :mrgreen:MacTeXを一式ダウンロードした。これは最新のTeX Live 2009をMac OS X向けにビルドしたもので、普通のマックユーザーが簡単にインストールできるようなパッケージとなっている。実際には、/usr/local/texlive/2009/ 以下にどどっとファイル群が入るのだが、そこは知らなくても良いことになっている。その代わりと言ってはなんだが、一切合切が入っている為か、ダウンロードするファイルは1個で1.3Gバイト。ギガですよ、旦那 :mrgreen:

これでTeXを始める人はそれで良いのだが、ワタシの場合、既にpTeXを導入していて、しかも通常の/usr/local/tetex/ (だったっけ?)以下ではなく独自の場所にインストールしているから、以下の情報は大切。メモしておこう。

まず、/etc/path.d/TeX と /etc/manpath.d/TeX というファイルが書き込まれる。これで、PATHとMANPATHの末尾にMacTeXで使うディレクトリーが追加される。追加されるPATHは /usr/texbin なのだが、これは /usr/local/texlive/2009 へのシンボリック・リンクである。そして、システム環境設定に新たに追加された TeX Distribution から、どのTeXシステムを使うのかを選択できるようになっている。例えば、MacPortsで入れたものを選択すると、/usr/texbin のリンク先が /opt/local/bin になる(試してないけど多分・・・)とかいう仕組みのようだ。(一部未確認なので要注意) まあ、あらかたこんな感じになっている。

全部で1.3Gという大富豪的TeXパッケージなのだが、何とTeXShopやTeXWorksといった統合環境エディターや、LaTeXit、おまけに asymptote まで全部入っている。これに日本語化されたpTeXとUTF拡張のupTeX、さらにe-TeX拡張された upTeXが入っていれば、日本でも利用者がどっと増えるだろうに・・・。

ということで、とりあえず、自分でビルドしたものは一切使わずに、PATHの最初の項目を /usr/texbin にし、MacTeXのasyとpdflatexで、アニメーションGIFを作ってみた。(冒頭のGIF動画がそれ)

Flickr! サイトではJPEGになってしまって動かないのだが、最大サイズを選べば GIF のままで、ちゃんと動く。

しかし・・・、2つのTeXシステムを行き来するのは面倒ではある。毎回PATHを変えるのもなあ。何か良い方法はないものか。

iPhone、Wi-fi環境でMMS送信失敗 ーー>解決

[ 追記あり。ネットワーク初期化したら解決 ]

いやあ、驚いた。日記のタイトルで内容は尽きており、これ以上追加することはないのだが、とりあえず記録。

今まで気付かなかったのが不思議とも思えるが、自宅から携帯メールを送信するってことが、なかったということだろう。昨日、自宅から知人の携帯にメール(MMS)を送ろうとして失敗。何度かリトライするがダメ。さきほど、別の人の携帯にメール(MMS)を送ろうとして、やはり送信できず。ううむ、これはどうしたことかと悩む。

自分のPCメール宛てに試しにMMSを送るが、これもダメ。仕方ないので、サポートに電話。やりとりすること数分、自宅からなのでWi-fi (無線LAN) でネットに繋がっていることが分かるや否や、サポート曰く、「申し訳ありませんが、Wi-fiの場合、MMSの送信がサポートされておりません・・・」はあ?はい?何それ?

茫然自失・・・。そんな理由だったのか!受信はできるのに(笑)。ということで、ぜひともMMSで送信したいのなら、Wi-fiを切って、3Gで送ることは可能ということでした。あほくさ。

これを期に、携帯メールからMobileMeのメールに主力を移行しようかしらん。

[ 追記 ]
しかし、送信できたこともあったよなあ・・・と不審に思い、検索。どうも、ネットワークの初期化をすれば良いらしい。ということで、設定からネットワークの初期化を行い、Wi-fiを選んでパスワード入力。すると、何と、3日まえに友人のI氏が送ったはず、と聞いていたメールを受信した(苦笑)。何だよ、こりゃあ。要するに受信も出来てなかったということじゃないか。これまではWi-fiでも普通に受信できたわけで、iPhoneかSoftBankか、どっちかの単純な不具合ではないのか?と思う。

さっそくI氏に返信。ほら、Wi-fiでもちゃんとMMS送信できたじゃないか。

いまさらVDSLは嫌なのじゃ

前にもちょっと書いたが、Yahoo BB! 光マンションが撤退するということで、NTTのBフレッツ with 光 とかいうのに移行する手続きをしてくれ、という連絡が来ているのだが・・・。

まあ、光ならどこでも良かろうと思っていたが、詳細を聞いて驚いた。現行のイーサケーブル(LANケーブル)方式は継続されず、メタル線(電話線)を用いた所謂VDSL方式になるんだそうだ。下りの速度はまずまず出るらしいが、何故にEther方式からVDSLにスペックダウンせねばならないのか。

いろいろ説明を聞いて、向こうの論理も一応は納得。というか、そういうことだからUSENみたいなゲリラ戦が出来なんだろうなあ NTTは、とか思ったが。

ということで、そろそろファイナルアンサーしなければならないので、最終決断に向けて調査中なのである。LANが使える会社に変えるつもりではいるが・・・。