用PHP(igo-php)进行形态分析
有哪些东西?
-
- php_mecab (phpのモジュール)
- igo-php
哪一个好?
我选择了 igo-php。
- Mac OS X の MAMP だとモジュール組み込みなど激しく面倒なので。
试用后的感受
因为分割得不如预期,所以放弃了使用。尽管好好调教可能会有帮助,但无法估计所需时间,所以放弃了。
问题所在
-
- 氏名が、苗字と名前に分けられた (氏名両方で取得したかった)
-
- 名前が、真奈だとしたら、真、奈と別れた
- AKB48 が AKB と 48 にわかれた
还有很多等等。
可能需要进行词典注册等等。
“igo-php 官方网站” (Igo-php official website)
Igo是一个形态分析器。
http://igo.sourceforge.jp/
Igo-php 的特点
从公式网页上获取概述/特征
-
- Javaで実装された形態素解析器。→ Common Lisp版
-
- 辞書フォーマット及び解析結果は、ほぼMeCab互換。
-
- 単機能。
-
- Javaの形態素解析器としては比較的高速。
- スレッドセーフ。
安装的大致流程
首先了解整体的流程(截至2013/08/01)。
-
- 下载jar文件
-
- 下载用于Mecab的IPA词典
-
- 使用上述的jar文件编译和创建IPA词典
- 下载igo-php (igo-php 0.1.7)
安装方法
下载jar文件
下载 – Igo – SourceForge.JP
http://sourceforge.jp/projects/igo/releases/
2. 下载Mecab使用的IPA词典
下载 – mecab – 日本语形态分析器
https://code.google.com/p/mecab/downloads/list
这个是最新版本的吗?mecab-ipadic-2.7.0-20070801.tar.gz
使用上述两个来编译和创建词典。
制作三本词典的方法
java -Xmx1024m -cp igo-0.4.5.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP
4. 下载 igo-php 。
igo-php的公式是哪个呢?
siahr/igo-php是一个链接地址为https://github.com/siahr/igo-php的GitHub项目。
SourceForge.JP 上的 Igo-php 项目日本语首页。
链接地址:http://sourceforge.jp/projects/igo-php/。
使用Java进行解析测试
在命令行中输入以下命令并按回车键:
$ java -cp igo-0.4.5.jar net.reduls.igo.bin.Igo ipadic
すもももももももものうち [Enter]
用PHP进行解析测试
$ php Igo.php <辞書へのパス> <文字列(またはテキストファイル)>
$ php Igo.php /home/user/ipadic "すもももももももものうち"
由于内存不足,可能最好临时增加一下。
PHP Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 71 bytes) in /Users/hoge/igo-php-0.1.7/lib/Igo/FileMappedInputStream.php on line 26
实际代码
请原谅我在使用dirname时,明确在define等函数中使用绝对路径。
<?php
ini_set('memory_limit', '128M');
set_include_path(get_include_path() . PATH_SEPARATOR . dirname(__FILE__) . '/igo-php/lib/Igo');
require_once(dirname(__FILE__) . '/igo-php/lib/Igo.php');
$igo = new Igo(dirname(__FILE__) . '/ipadic', 'UTF-8');
$result = $igo->parse("すもももももももものうち");
print_r($result);
$result = $igo->wakati("すもももももももものうち");
print_r($result);
参考网站
使用igo-php进行形态分析的方法
http://bakedmemo.blogspot.jp/2013/01/igo-php.html
【PHP】解析文章并进行词汇分解(词法分析) | PHP档案
http://php-archive.net/php/morphological-analysis/