色々日記（ざ・めも）

メッセージ

2005年06月08日の記事

2005/06/08(水)テキスト抽出ができないPDF

2005/06/08 03:00 PC（全般）

xdoc2txtやAcrobatのテキストコピペからでも一切文字化けして、テキスト情報が抽出できないPDFファイルがある。

どうやらフォントがType3となっているためのようだ。

実はちゃんとType3フォントが如何なるものか分かっていないのだが、独自定義フォントらしい。画像（ベクター情報？）と文書中の文字がどのフォントに対応するかは埋め込むが、その文字が一般の言語においてどの文字に対応するかどうかは埋めないということなのだろう。Type3フォントのPDFは英語文書で若干が存在し、主流ではない。現在の遭遇率は100中2程度。日本語ではまず存在しないようだ。

さて、こいつらをテキストに変換するにはどうやらOCRを通すしかない。なにせ、PDFで出力し直すと１ページが全部画像になる。

英文なら自分でフォントの対応表を弄ってやれば何とかなりそうな……、妄想の中でだが。
Type3からType1に変更する方法なんてのは見つからなかった。

コメント（0件）

Information

管理人: urara

自宅サーバ(Debian Linux)の管理他での備忘録です。

自分で思い出すときの手がかり用に書いてるので、人に読ませることはあんまり考えてません。

誤字・脱字・錯誤・乱文・わかりにくい等ご容赦下さい。
記事一覧
印刷用の表示

カレンダー

最近の記事

最近のコメント

検索

過去ログ

2025年 (1)
- 2025年03月 (1)
2024年 (2)
- 2024年04月 (1)
- 2024年02月 (1)
2023年 (3)
- 2023年11月 (1)
- 2023年10月 (2)
2022年 (4)
- 2022年08月 (1)
- 2022年06月 (1)
- 2022年05月 (1)
- 2022年02月 (1)
2021年 (4)
- 2021年12月 (1)
- 2021年09月 (1)
- 2021年07月 (2)
2020年 (5)
- 2020年12月 (2)
- 2020年11月 (1)
- 2020年05月 (1)
- 2020年03月 (1)
2019年 (6)
- 2019年11月 (1)
- 2019年10月 (1)
- 2019年08月 (1)
- 2019年02月 (2)
- 2019年01月 (1)
2018年 (3)
- 2018年12月 (1)
- 2018年11月 (2)
2017年 (2)
- 2017年09月 (1)
- 2017年07月 (1)
2016年 (1)
- 2016年01月 (1)
2015年 (5)
- 2015年07月 (3)
- 2015年06月 (1)
- 2015年04月 (1)
2014年 (12)
- 2014年11月 (1)
- 2014年10月 (1)
- 2014年08月 (3)
- 2014年06月 (2)
- 2014年05月 (1)
- 2014年04月 (1)
- 2014年02月 (1)
- 2014年01月 (2)
2013年 (17)
- 2013年12月 (4)
- 2013年11月 (4)
- 2013年10月 (4)
- 2013年07月 (2)
- 2013年06月 (1)
- 2013年05月 (1)
- 2013年02月 (1)
2012年 (5)
- 2012年07月 (2)
- 2012年06月 (2)
- 2012年01月 (1)
2011年 (26)
- 2011年12月 (8)
- 2011年11月 (5)
- 2011年07月 (2)
- 2011年06月 (1)
- 2011年05月 (2)
- 2011年04月 (2)
- 2011年02月 (5)
- 2011年01月 (1)
2010年 (4)
- 2010年12月 (1)
- 2010年11月 (1)
- 2010年10月 (1)
- 2010年07月 (1)
2009年 (4)
- 2009年08月 (1)
- 2009年07月 (2)
- 2009年03月 (1)
2008年 (27)
- 2008年11月 (2)
- 2008年10月 (1)
- 2008年09月 (3)
- 2008年08月 (9)
- 2008年07月 (4)
- 2008年06月 (1)
- 2008年04月 (1)
- 2008年02月 (4)
- 2008年01月 (2)
2007年 (48)
- 2007年12月 (1)
- 2007年11月 (12)
- 2007年10月 (8)
- 2007年08月 (3)
- 2007年07月 (9)
- 2007年06月 (3)
- 2007年05月 (8)
- 2007年03月 (2)
- 2007年02月 (1)
- 2007年01月 (1)
2006年 (27)
- 2006年12月 (4)
- 2006年08月 (1)
- 2006年07月 (1)
- 2006年06月 (1)
- 2006年05月 (9)
- 2006年04月 (3)
- 2006年03月 (3)
- 2006年02月 (5)
2005年 (98)
- 2005年10月 (14)
- 2005年09月 (9)
- 2005年08月 (3)
- 2005年07月 (6)
- 2005年06月 (5)
- 2005年05月 (10)
- 2005年04月 (16)
- 2005年03月 (20)
- 2005年02月 (10)
- 2005年01月 (5)
2004年 (167)
- 2004年12月 (14)
- 2004年11月 (10)
- 2004年10月 (6)
- 2004年09月 (10)
- 2004年08月 (28)
- 2004年07月 (3)
- 2004年06月 (11)
- 2004年05月 (6)
- 2004年04月 (18)
- 2004年03月 (23)
- 2004年02月 (27)
- 2004年01月 (11)
2003年 (68)
- 2003年12月 (5)
- 2003年11月 (9)
- 2003年10月 (3)
- 2003年09月 (3)
- 2003年08月 (4)
- 2003年07月 (4)
- 2003年06月 (10)
- 2003年05月 (12)
- 2003年04月 (7)
- 2003年03月 (3)
- 2003年02月 (7)
- 2003年01月 (1)
2002年 (32)
- 2002年11月 (2)
- 2002年09月 (1)
- 2002年08月 (2)
- 2002年07月 (8)
- 2002年06月 (1)
- 2002年05月 (1)
- 2002年03月 (4)
- 2002年02月 (11)
- 2002年01月 (2)
2001年 (28)
- 2001年12月 (7)
- 2001年10月 (4)
- 2001年08月 (2)
- 2001年07月 (5)
- 2001年06月 (3)
- 2001年05月 (7)

System info

Runtime : CGI-Perl
RDBMS : Text-DB