费斯备忘录 (FESS备忘录)
-
- Fess10.0.3のKuromoji辞書
- https://ja.osdn.net/projects/fess/forums/18580/37656/
在Fess 10中,我们进行文档语言判定,并应用适合该文档的各种语言的分析器。如果词法分析结果不在前面位置时,可能是因为文档的语言判定没有被识别为日语。
我明白了。如果查看分析器的设置或源代码,应该能够了解如何解析什么样的文件。值得注意的事项。
-
- どういったドキュメントの時にどのAnalyzerが割り当たるかはこの設定ファイルかな?
-
- https://github.com/codelibs/fess/blob/master/src/main/resources/fess_indices/fess/doc.json
- https://github.com/codelibs/fess/blob/master/src/main/resources/fess_indices/fess.json
鑒於您對我們的投稿給予了評論,我已經對此進行了修正。非常感謝shinsuke_sugaya先生。
因为您给出的评论内容正是我想了解的内容,所以我也会将它放在这里。
使用哪个Analyzer来进行语言判定的逻辑不是elasticsearch的功能,而是在https://github.com/codelibs/elasticsearch-langfield插件中扩展的功能。
然而,由于接口langdetect有时候会判断错误,所以对于HTML,如果存在html标签的lang属性,则使用该属性进行判定。
另外,Analyzer是搜索的关键部分,因此我们通过https://github.com/codelibs/elasticsearch-analysis-fess插件自动检测Analyzer本身,还为elasticsearch添加了各种各样的功能插件。
分析器的自动检测,引人入胜的措辞。听起来挺有趣的。今天没时间,那就周末看看源代码吧。虽然这么说着,但也许周末也不会做呢。。。也许在坐电车的时候看吧。^^
-
- Analyzerの設定
-
- http://fess.codelibs.org/ja/11.0/config/analyzer.html
-
- >検索のためのインデックスを作成する際、索引として登録するために文書を切り分ける必要があります。 Fess では、文書を単語に分解する機能を Analyzer として登録しています。 Analyzer は CharFilter、Tokenizer および TokenFilter により構成されます。
-
- ~中略~
- Analyzer の設定は Fess の起動時に fess インデックスが存在しない場合に app/WEB-INF/classes/fess_indices/fess.json で fess インデックスを作成して登録されます。 Analyzer の構成方法は elasticsearch の Analyzer のドキュメントを参照してください。
嗯嗯,最终还是要调查Elasticsearch吗。。
-
- ElasticSearchのアナライザの設定
- http://christina04.hatenablog.com/entry/2015/02/02/225734
在未指定分析器的情况下创建索引,该配置将成为默认设置。
此次我们将使用bigram作为分析器进行设置。
要进行设置,请编辑/etc/elasticsearch/elasticsearch.yml文件。
-
- Elasticsearchのインデックスの格納場所
- http://qiita.com/uzresk/items/e0b10c14875b79c450f2
默认存储在/var/lib/elasticsearch。索引会存放在该位置下的nodes/0/_state/global-0.st。
-
- ElasticsearchからデータをCSV形式でワンライナーで取り出す
- http://qiita.com/gingi99/items/f7dc57193fbf978eb63b
可以使用以下方式在Elasticsearch中获取索引列表。
$ curl -XGET [IP地址或主机名]:[端口号]/_aliases?pretty