Elasticsearch中搜索引擎的机制(5): 评分篇
[上回] 关于 Elasticsearch 搜索引擎的工作原理(4):在样本数据中进行查询编辑
首先
上一次我們使用Elasticsearch的示範數據進行了查詢。
這一次我們將理解搜尋結果中的排名。
Scoring (ranking) refers to the process of assigning scores or ranks.
-
- ユーザーにとって重要と思われる文書を上位に表示するようにソート
-
- 独自のランク付けルールを適用し重要度と呼んでいる
-
- 使用される手法
文書中の検索単語出現頻度
検索単語が、各文書内でどのくらいの頻度で出現しているかを表す割合
TF-IDF
TF(term frequency)は、ある文書における単語の出現頻度
IDF(inverse document frequency)は、単語の文書間でのレア度(希少価値)を表す
どの文書にもある単語はレア度(重要度)が低い
BM25(Okapi BM25)
tf-idfを改良した手法で、クエリとの関連性に応じて、文書を順位付け
Elasticsearchで使用
ページランク
重要度の高いページからリンクされているページは重要であるという原理に基づいたランク付け
HTMLタグの解析