尝试使用Apache Tika读取内容

Apache Tika是什么

阿帕奇提卡

Apache Tika,是一個使用Java開發的文件分析和元數據提取工具包。它支持多種文件格式,可以從目標數據中提取元數據。Tika原先是Apache Lucene的子項目,但現在被視為Apache軟件基金會旗下的項目。

「Apache Tika 1.0」现已发布,可以从PDF和Office文档中提取元数据。

暂时试用一下

只是我想试试这次。

从Apache Tika官网下载tika-app-1.4.jar。

只要有 Java 5 或更高版本,就能進行這個操作。

我打算参考《Apache Tika 入门》一文来运行一下。

例如,从Qiita的主页中提取文本。

curl http://qiita.com | java -jar tika-app-1.4.jar -t
# (出力は省略)

只有去除了HTML标记的文本被提取出来。

接下来尝试提取元数据。

curl http://qiita.com |java -jar tika-app-1.4.jar -m
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 13354  100 13354    0     0   6295      0  0:00:02  0:00:02 --:--:--  149k
Content-Encoding: UTF-8
Content-Type: text/html; charset=UTF-8
csrf-param: authenticity_token
csrf-token: dSy4U4+9rRNQFC4caHMvMF7HACh52MIeIv2T6whBYD8=
dc:title: Qiita [キータ] - プログラマの技術情報共有サービス
description: Qiitaは、プログラマのための技術情報共有サービスです。プログラミングに関するTips、ノウハウ、メモを簡単に記録&公開することができます。
fb:admins: 564524038
og:description: Qiitaは、プログラマのための技術情報共有サービスです。プログラミングに関するTips、ノウハウ、メモを簡単に記録&公開することができます。
og:image: http://qiita.com//assets/qiita-fb-ced1f2e92fd6f8d912353b746a063723.png
og:site_name: Qiita
og:title: Qiita [キータ] - プログラマの技術情報共有サービス
og:type: website
og:url: http://qiita.com/
title: Qiita [キータ] - プログラマの技術情報共有サービス
twitter:card: summary
twitter:site: @Qiita
viewport: width=device-width,height=device-height,initial-scale=1

比如,dc:title是Dublin Core(都柏林核心)的一个基本元素。其他例如OGP(开放图谱协议)的元数据og:以及Twitter的ID也可以获取。

Tika不仅支持HTML,还支持各种文档格式。例如,我们可以尝试将其应用于平成24年版厚生労働白書概要版的PDF文档。因为反复访问可能让人感到不便,所以我们先下载该文档,然后尝试以JSON格式获取元数据。

wget http://www.mhlw.go.jp/wp/hakusyo/kousei/12-1/dl/gaiyou.pdf
java -jar tika-app-1.4.jar -j  < gaiyou.pdf
{ "Author":"厚生労働省ネットワークシステム",
"Company":"厚生労働省",
"Content-Type":"application/pdf",
"ContentTypeId":"0x0101002DA299AC048A4B8EA9C1D19079C1A322009BEBE826950D474BAD6B2F2400F1439F",
"Creation-Date":"2012-11-01T05:13:10Z",
"Last-Modified":"2012-11-01T05:13:44Z",
"Last-Save-Date":"2012-11-01T05:13:44Z",
"created":"Wed Oct 31 22:13:10 PDT 2012",
"creator":"厚生労働省ネットワークシステム",
"date":"2012-11-01T05:13:44Z",
"dc:creator":"厚生労働省ネットワークシステム",
"dc:title":"スライド 1",
"dcterms:created":"2012-11-01T05:13:10Z",
"dcterms:modified":"2012-11-01T05:13:44Z",
"meta:author":"厚生労働省ネットワークシステム",
"meta:creation-date":"2012-11-01T05:13:10Z",
"meta:save-date":"2012-11-01T05:13:44Z",
"modified":"2012-11-01T05:13:44Z",
"producer":"Adobe PDF Library 9.0",
"title":"スライド 1",
"xmp:CreatorTool":"PowerPoint 用 Acrobat PDFMaker 9.1",
"xmpTPg:NPages":12 }

然后,听说可以使用大写的T选项来提取主要的文本。
试着提取了 MacBook Air (13-inch, Mid 2013) – 从快速入门中。

curl http://manuals.info.apple.com/ja_JP/macbook_air-13-inch-mid-2013_quick_start_jp.pdf | java -jar tika-app-1.4.jar -T
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 4679k  100 4679k    0     0  1757k      0  0:00:02  0:00:02 --:--:-- 7232k
はじめに お買い求めのMacBook Airをはじめて起動すると、「設定アシスタント」がMacの設定手 順をご案内します。表示される説明に従って、Wi-Fiネットワークへの接続、ほかのMacま たはWindowsコンピュータからのデータの転送、Macのユーザアカウントの設定が簡単に できます。

# (中略)

新しいアプリケーションをチェック さまざまなアプリケーションをブラ ウズして、「Launchpad」に直接 ダウンロ ドーできます。
カレンダー表示 日、週、月、または年表示を 選択できます。
イベントを追加 カレンダー内をダブル クリックすれば新しいイベ ントを追加できます。

虽然还没有看到它是以什么作为主要文本的,但我有一种感觉它有点像是主要的。

今天就到这里吧,不过我突然觉得可能有些有趣的事情可以做!

广告
将在 10 秒后关闭
bannerAds