今やってる仕事で、JavaでPDFからテキストの抽出が出来るかしら?と話が出たので、お昼休みに弁当食いながらチャレンジ。
軽く探してみたところ、pdfboxってライブラリの特徴に、
# PDF to text extraction
ってあるので、キタコレと。
試すPDFは、たまたま手元にあったこれ。
『インターネット白書2006』記者発表会
で、久しぶりにコードを書いてみた。
public class PDF2Text {
private PDDocument pdfDocument = null;
public String getText(FileInputStream fileInputStream) throws IOException {
PDFParser pdfParser = new PDFParser(fileInputStream);
pdfParser.parse();
pdfDocument = pdfParser.getPDDocument();
String textInPDF = null;
PDFTextStripper textStripper = new PDFTextStripper();
textInPDF = textStripper.getText(pdfDocument);
return textInPDF;
}
public static void main(String[] args) {
FileInputStream fileInputStream = null;
try {
fileInputStream = new FileInputStream("20060607A.pdf");
PDF2Text test = new PDF2Text();
String text = test.getText(fileInputStream);
System.out.println("キタ━━━━━━(゜∀゜)━━━━━━!");
System.out.println(text);
以下略…
で、結果はこんな感じ。
キタ━━━━━━(゜∀゜)━━━━━━!
I
NTERNET
W
HITE
P
A
PER
0
『インターネット白書2006』 記者発表会
2006年6月7日
株式会社インプレスR&D
I
NTERNET
W
HITE
P
A
PER
1
『インターネット白書2006』構成
巻頭カラー
第1部 日本のインターネット普及動向
第2部 個人利用動向
第3部 企業利用動向
第4部 通信事業者動向
第5部 ネットビジネス事業者動向
第6部 社会動向
第7部 海外のインターネット普及動向
第8部 インターネット基本指標
第9部 技術動向
付録
I
NTERNET
W
HITE
P
A
PER
2
「第1部 日本のインターネット普及動向」
調査方法
■調査方法 電話調査
( RDD:ランダム・ディジット・ダイヤリング)
■調査対象 一般世帯(回答者は 16歳以上の男女)
■調査期間 2006年 2月
■対象地域 全国 26都市およびその近郊
■サンプリング 95,809世帯( RDD採用のエリアサンプリング)
■総回答数 44,843サンプル
■有効回答数 41,025サンプル
■調査主体 アクセス メディア インターナショナル株式会社
(注)インターネットの世帯内利用者としては対象を 3歳以上の
男女とする。
I
NTERNET
W
HITE
P
A
PER
3
世帯浸透率は85.4%、世帯普及率は57.3%
ブロードバンド世帯普及率は41.4%
■「インターネット世
帯浸透率」は勤務先/
学校から、携帯電話
/PHSからも含め、何ら
かの形でインターネッ
トを利用している人が
いる世帯。
■「インターネット世
帯普及率」は、自宅の
機器(主にPC、ゲーム
機など別の機器もわず
かに含まれる)から接
続している比率。
■「ブロードバンド世
帯普及率」は、4.1%
で、世帯普及率に年々
近づいている。 イン
ターネット利用世帯の
中でのブロードバンド
構成比は初めて 7割を
超えた。昨年 2005年は
65.2% 、 2004 年は
48.1%だった。
第1部 日本のインターネット普及動向
I
NTERNET
W
HITE
P
A
PER
4
インターネット利用人口は 7,361万9千人
前年比105.1%
■内訳は、自宅の機器からの利用者が2,522.6万、自宅の機器と学校や勤務先の機器からの併用が2,537.6万、
勤務先・学校からは1,398.0万、携帯電話/PHSのみは903.8万人。2005年以降、携帯/PHSだけに依存する人は減
少しており、利用場所・利用機器は複数併用型が主流となっている。
第1部 日本のインターネット普及動向
I
NTERNET
W
HITE
P
A
PER
5
家庭のブロードバンド人口は3,756万8千人
前年比116.5%
第1部 日本のインターネット普及動向
■昨年2005年の3,224万4千人から532万4千人の増加。
日本の総世帯数×ブロードバンド世帯普及率×
一世帯当たりの平均利用人数(1.802人)で算出
てなわけで、あっさりと取れたわけだが、
ここら辺とかを覗いてみると、まだまだ、日本語の抽出に関しては難ありなのだろう。
いろいろ試してみないと。
PDF自体の仕様に関しても、今って最新のバージョンっていくつなのだろうか?1.6かしら?
0 件のコメント:
コメントを投稿