2005/06/08(水)テキスト抽出ができないPDF
2005/06/07 27:00
どうやらフォントがType3となっているためのようだ。
実はちゃんとType3フォントが如何なるものか分かっていないのだが、独自定義フォントらしい。画像(ベクター情報?)と文書中の文字がどのフォントに対応するかは埋め込むが、その文字が一般の言語においてどの文字に対応するかどうかは埋めないということなのだろう。Type3フォントのPDFは英語文書で若干が存在し、主流ではない。現在の遭遇率は100中2程度。日本語ではまず存在しないようだ。
さて、こいつらをテキストに変換するにはどうやらOCRを通すしかない。なにせ、PDFで出力し直すと1ページが全部画像になる。
英文なら自分でフォントの対応表を弄ってやれば何とかなりそうな……、妄想の中でだが。
Type3からType1に変更する方法なんてのは見つからなかった。