用PHP(igo-php)进行形态分析

有哪些东西?

    • php_mecab (phpのモジュール)

 

    igo-php

哪一个好?

我选择了 igo-php。

    Mac OS X の MAMP だとモジュール組み込みなど激しく面倒なので。

试用后的感受

因为分割得不如预期,所以放弃了使用。尽管好好调教可能会有帮助,但无法估计所需时间,所以放弃了。

问题所在

    • 氏名が、苗字と名前に分けられた (氏名両方で取得したかった)

 

    • 名前が、真奈だとしたら、真、奈と別れた

 

    AKB48 が AKB と 48 にわかれた

还有很多等等。
可能需要进行词典注册等等。

“igo-php 官方网站” (Igo-php official website)

Igo是一个形态分析器。
http://igo.sourceforge.jp/

Igo-php 的特点

从公式网页上获取概述/特征

    • Javaで実装された形態素解析器。→ Common Lisp版

 

    • 辞書フォーマット及び解析結果は、ほぼMeCab互換。

 

    • 単機能。

 

    • Javaの形態素解析器としては比較的高速。

 

    スレッドセーフ。

安装的大致流程

首先了解整体的流程(截至2013/08/01)。

    1. 下载jar文件

 

    1. 下载用于Mecab的IPA词典

 

    1. 使用上述的jar文件编译和创建IPA词典

 

    下载igo-php (igo-php 0.1.7)

安装方法

下载jar文件

下载 – Igo – SourceForge.JP
http://sourceforge.jp/projects/igo/releases/

2. 下载Mecab使用的IPA词典

下载 – mecab – 日本语形态分析器
https://code.google.com/p/mecab/downloads/list

这个是最新版本的吗?mecab-ipadic-2.7.0-20070801.tar.gz

使用上述两个来编译和创建词典。

制作三本词典的方法

java -Xmx1024m -cp igo-0.4.5.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP

4. 下载 igo-php 。

igo-php的公式是哪个呢?

siahr/igo-php是一个链接地址为https://github.com/siahr/igo-php的GitHub项目。

SourceForge.JP 上的 Igo-php 项目日本语首页。
链接地址:http://sourceforge.jp/projects/igo-php/。

使用Java进行解析测试

在命令行中输入以下命令并按回车键:
$ java -cp igo-0.4.5.jar net.reduls.igo.bin.Igo ipadic
すもももももももものうち [Enter]

用PHP进行解析测试

$ php Igo.php <辞書へのパス> <文字列(またはテキストファイル)> 
$ php Igo.php /home/user/ipadic "すもももももももものうち" 

由于内存不足,可能最好临时增加一下。

PHP Fatal error:  Allowed memory size of 134217728 bytes exhausted (tried to allocate 71 bytes) in /Users/hoge/igo-php-0.1.7/lib/Igo/FileMappedInputStream.php on line 26

实际代码

请原谅我在使用dirname时,明确在define等函数中使用绝对路径。

<?php
ini_set('memory_limit', '128M');
set_include_path(get_include_path() . PATH_SEPARATOR . dirname(__FILE__) . '/igo-php/lib/Igo');
require_once(dirname(__FILE__) . '/igo-php/lib/Igo.php');

$igo = new Igo(dirname(__FILE__) . '/ipadic', 'UTF-8');
$result = $igo->parse("すもももももももものうち");
print_r($result);
$result = $igo->wakati("すもももももももものうち");
print_r($result);

参考网站

使用igo-php进行形态分析的方法
http://bakedmemo.blogspot.jp/2013/01/igo-php.html

【PHP】解析文章并进行词汇分解(词法分析) | PHP档案
http://php-archive.net/php/morphological-analysis/

广告
将在 10 秒后关闭
bannerAds