Elasticsearch中搜索引擎的机制(5): 评分篇

[上回] 关于 Elasticsearch 搜索引擎的工作原理(4):在样本数据中进行查询编辑

首先

上一次我們使用Elasticsearch的示範數據進行了查詢。
這一次我們將理解搜尋結果中的排名。

Scoring (ranking) refers to the process of assigning scores or ranks.

    • ユーザーにとって重要と思われる文書を上位に表示するようにソート

 

    • 独自のランク付けルールを適用し重要度と呼んでいる

 

    • 使用される手法

文書中の検索単語出現頻度

検索単語が、各文書内でどのくらいの頻度で出現しているかを表す割合

TF-IDF

TF(term frequency)は、ある文書における単語の出現頻度
IDF(inverse document frequency)は、単語の文書間でのレア度(希少価値)を表す

どの文書にもある単語はレア度(重要度)が低い

BM25(Okapi BM25)

tf-idfを改良した手法で、クエリとの関連性に応じて、文書を順位付け

Elasticsearchで使用

ページランク

重要度の高いページからリンクされているページは重要であるという原理に基づいたランク付け

HTMLタグの解析

 

广告
将在 10 秒后关闭
bannerAds