费斯备忘录 (FESS备忘录)

    • Fess10.0.3のKuromoji辞書

 

    https://ja.osdn.net/projects/fess/forums/18580/37656/

在Fess 10中,我们进行文档语言判定,并应用适合该文档的各种语言的分析器。如果词法分析结果不在前面位置时,可能是因为文档的语言判定没有被识别为日语。

我明白了。如果查看分析器的设置或源代码,应该能够了解如何解析什么样的文件。值得注意的事项。

    • どういったドキュメントの時にどのAnalyzerが割り当たるかはこの設定ファイルかな?

 

    • https://github.com/codelibs/fess/blob/master/src/main/resources/fess_indices/fess/doc.json

 

    https://github.com/codelibs/fess/blob/master/src/main/resources/fess_indices/fess.json

鑒於您對我們的投稿給予了評論,我已經對此進行了修正。非常感謝shinsuke_sugaya先生。

因为您给出的评论内容正是我想了解的内容,所以我也会将它放在这里。

使用哪个Analyzer来进行语言判定的逻辑不是elasticsearch的功能,而是在https://github.com/codelibs/elasticsearch-langfield插件中扩展的功能。
然而,由于接口langdetect有时候会判断错误,所以对于HTML,如果存在html标签的lang属性,则使用该属性进行判定。
另外,Analyzer是搜索的关键部分,因此我们通过https://github.com/codelibs/elasticsearch-analysis-fess插件自动检测Analyzer本身,还为elasticsearch添加了各种各样的功能插件。

分析器的自动检测,引人入胜的措辞。听起来挺有趣的。今天没时间,那就周末看看源代码吧。虽然这么说着,但也许周末也不会做呢。。。也许在坐电车的时候看吧。^^

    • Analyzerの設定

 

    • http://fess.codelibs.org/ja/11.0/config/analyzer.html

 

    • >検索のためのインデックスを作成する際、索引として登録するために文書を切り分ける必要があります。 Fess では、文書を単語に分解する機能を Analyzer として登録しています。 Analyzer は CharFilter、Tokenizer および TokenFilter により構成されます。

 

    • ~中略~

 

    Analyzer の設定は Fess の起動時に fess インデックスが存在しない場合に app/WEB-INF/classes/fess_indices/fess.json で fess インデックスを作成して登録されます。 Analyzer の構成方法は elasticsearch の Analyzer のドキュメントを参照してください。

嗯嗯,最终还是要调查Elasticsearch吗。。

    • ElasticSearchのアナライザの設定

 

    http://christina04.hatenablog.com/entry/2015/02/02/225734

在未指定分析器的情况下创建索引,该配置将成为默认设置。
此次我们将使用bigram作为分析器进行设置。
要进行设置,请编辑/etc/elasticsearch/elasticsearch.yml文件。

    • Elasticsearchのインデックスの格納場所

 

    http://qiita.com/uzresk/items/e0b10c14875b79c450f2

默认存储在/var/lib/elasticsearch。索引会存放在该位置下的nodes/0/_state/global-0.st。

    • ElasticsearchからデータをCSV形式でワンライナーで取り出す

 

    http://qiita.com/gingi99/items/f7dc57193fbf978eb63b

可以使用以下方式在Elasticsearch中获取索引列表。
$ curl -XGET [IP地址或主机名]:[端口号]/_aliases?pretty

广告
将在 10 秒后关闭
bannerAds