在Elasticsearch中使用Sudachi的步骤#1是:
Sudachi和我
初次见面,我是自然语言处理工程师的茶茶。秋天也变得更深,成为了鳗鱼的美味季节。说到鳗鱼,就必然想到烧盐。说到烧盐,就离不开美味的酱油。另外,我也不能没有酸橙。今天我将在位于德岛的Works Applications研究所介绍一下形態素解析器Sudachi的使用方法。
Sudachi的特点是可以根据适当的长度提取词组。它的分析速度与kuromoji相媲美,并且除了拥有neologd贡献的丰富词汇的词典外,还试图解决neologd所面临的词组过度概括和过于广泛的专有名词解释等问题。下面有关于这一工作的解释资料:
最新消息:现在已经正式发布并且解释也都准备齐全了。@sorami的解释非常容易理解。针对Elasticsearch的新分词器”Sudachi”,编译好的存档也已经发布。如果需要,可以点击以下链接获取:https://oss.sonatype.org/content/repositories/snapshots/com/worksap/nlp/。因此,以下是已经过时的信息,如果能对故障排除有所帮助。
目前阶段我只是在GitHub上向开发者公开源代码,所以要在Elasticsearch中使用它,需要额外的步骤。希望很快会实现通过yum等轻松安装。
过时的大致步骤
需要的是一个叫做analysis_sudachi的Elasticsearch插件。
为了创建这个插件,首先需要构建Sudachi核心。
在clone的目录下(以下称为Sudachi/)中,使用elasticsearch进行analysis_sudachi的构建。
-
- 从GitHub上启用LFS并克隆https://github.com/WorksApplications/Sudachi。
对Sudachi/pom.xml执行mvn package。
如果Sudachi/target/sudachi-0.1-SNAPSHOT-executable.zip等已创建,则表示成功。
编辑Sudachi/elasticsearch/pom.xml。
删除surefire插件、删除works的artifact、根据需要更改elasticsearch系列的artifact版本。
编辑Sudachi/elasticsearch/src/main/extras/plugin-descriptor.properties。
根据需要更改elasticsearch的版本,步骤3相同。
将Sudachi/src/main/java/复制到Sudachi/elasticsearch/src/main/java/。
由于没有works的artifact,所以需要进行这个步骤。
删除Sudachi/elasticsearch/src/test/。
测试可能不会通过,但应该没有问题。
对Sudachi/elasticsearch/pom.xml执行mvn package。
将Sudachi/elasticsearch/target/releases/analysis-sudachi-1.0.0-SNAPSHOT.zip传输到Elasticsearch服务器。
在Elasticsearch服务器上运行以下命令安装插件。
sudo elasticsearch-plugin install file:///your_path/analysis-sudachi-1.0.0-SNAPSHOT.zip
安装成功后,将能够使用名为analysis_sudachi的分析器。
以上,我只是简单地介绍了今天的流程。下次我们会详细解释。