2005/06/08(水)テキスト抽出ができないPDF

2005/06/07 27:00 PC(全般)
xdoc2txtやAcrobatのテキストコピペからでも一切文字化けして、テキスト情報が抽出できないPDFファイルがある。

どうやらフォントがType3となっているためのようだ。

実はちゃんとType3フォントが如何なるものか分かっていないのだが、独自定義フォントらしい。画像(ベクター情報?)と文書中の文字がどのフォントに対応するかは埋め込むが、その文字が一般の言語においてどの文字に対応するかどうかは埋めないということなのだろう。Type3フォントのPDFは英語文書で若干が存在し、主流ではない。現在の遭遇率は100中2程度。日本語ではまず存在しないようだ。

さて、こいつらをテキストに変換するにはどうやらOCRを通すしかない。なにせ、PDFで出力し直すと1ページが全部画像になる。

英文なら自分でフォントの対応表を弄ってやれば何とかなりそうな……、妄想の中でだが。
Type3からType1に変更する方法なんてのは見つからなかった。

2005/06/06(月)Windows XPでDVD-RAMに書き込むとき

2005/06/06 19:00 PC(全般)
XPからはDVD-RAMはドライバをインストールしなくても使えるはず。
しかしいざファイルをドラッグしてみると、半透明になって実際には書き込まれていない。

これは同じくXP搭載のCDへの書き込み機能がONになっているからで、DVD-RAMを使う場合はこれを切ってやらないといけない(なんて仕様だ!)

・手順
マイコンピュータ->DVD-RAMドライブを右クリック->プロパティ->
"書き込み"タブ->!このドライブでCD書き込みを有効にする"チェック ボックスをoff

[参考]
http://support.microsoft.com/default.aspx?scid=kb;ja;826510

でも、XP標準だとFATなんだよなこれ……
RAMフリークの人々にとってはどうなんでしょうか。やっぱりUDF?
OK キャンセル 確認 その他