`

谈谈BM25评分

阅读更多

1 什么是BM25

    摘录一段wiki

 

BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the query terms within a document (e.g., their relative proximity). It is not a single function, but actually a whole family of scoring functions, with slightly different components and parameters. One of the most prominent instantiations of the function is as follows.

 

    文档搜索中,并没有例如prgoogle)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。

 

2 怎么用BM25

    到底BM25评分还是个数学方法,我们先来看看它的数学表达式

 

 

 

 

 

大概解释一下公式的意思
对于公式1
score
DQ):就是我们所要计算的评分,即为【给定搜索内容】Q在【给定文档】D中的相关程度,分数越高表示相关度越高。
q
:【给定搜索内容】Q中的语素,英文的话就是单词,中文的话需要先进行简单的切词操作。
f
qi,D):在【给定文档】D中,某一个语素qi出现的频率。
|D|
:【给定文档】D长度。
avgdl:
索引中所有文档长度。
另外两个参数K1b用来调整精准度,一般情况下我们取K1=2b=0.75

公式2是用来计算公式1IDFqi)的值
N
:索引中文档的总数目。
n
qi):索引中包含语素qi的文档的总书目。

至此,公式所有变量、常量意义明确,我们就可以开始计算了。
--------------------------------------------------------------
由于公式并不难以理解,纯计算部分coder的事就没必要列出来了,这里我想说的是如何把这套评分体系和lucene结合起来。

众所皆知,lucenescore的功能,详见以下链接
http://lucene.apache.org/java/2_4_0/scoring.html
就不细说了。

现在我们做一个简单的demo,加入附件中的jar

Java代码

  1. public static void main(String[] args) throws ParseException, IOException {   
  2.     //建立索引   
  3.     IndexSearcher searcher = new IndexSearcher("/doc");   
  4.     //计算平均长度avgdl   
  5.     BM25Parameters.load("avgLengthPath");   
  6.     BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",   
  7.             "Search-Field", new MMAnalyzer());   
  8.     //开始进行检索   
  9.     Hits hits = searcher.search(query);   
  10.     //输出结果   
  11.     for (int i = 0; i < 10; i++) {   
  12.         System.out.println(hits.id(i) + ":" + hits.score(i));   
  13.     }   
  14. }  

  public static void main(String[] args) throws ParseException, IOException {

   //建立索引

   IndexSearcher searcher = new IndexSearcher("/doc");

   //计算平均长度avgdl

   BM25Parameters.load("avgLengthPath");

   BM25BooleanQuery query = new BM25BooleanQuery("This is my Query",

      "Search-Field", new MMAnalyzer());

   //开始进行检索

   Hits hits = searcher.search(query);

   //输出结果

   for (int i = 0; i < 10; i++) {

     System.out.println(hits.id(i) + ":" + hits.score(i));

   }

  }


我们即可计算BM25,模仿baidu硬盘搜索做一个简单的玩意也可以很快上手了。

补充:除了lucene以外,mg4j也可以进行bm25的计算,甚至于比lucene更优秀的在于利用mg4j可以直接计算bm25。不过在中文分词方面,利用mg4j就远没有lucene方便,所以略去不谈。


3 BM25
怎么样
简单分析一下bm25的算法我们可以知道这套评分方法还是基于在文档中出现频率,也就是说给定查询语句中的词素至少要有一个在给定文档中出现,不然计算结果会为0

而由不愿意透露身份的王博士所介绍的基于以下两个公式的转移概率模型的评分则不需要有如此硬性的要求,譬如你在搜索中国首都时,会得到一篇含有北京字样的文档。



 

 


我们衡量一套搜索方法的原则无外乎准确度和量:
基于转移概率的搜索方法虽然得到的量会更多一些,的那是我们认为准确度会有所不足,并不是每组高转移概率的词汇对都会如中国首都北京这样同义,可能会有很多无意义的转移词汇对或者根本不相关的词汇对,这将大大降低搜索的效率。

基于BM25的搜索方法在准确度上会更胜一筹,它的结果至少保证了是含有【给定搜索语句】的语素,事实上大部分实用的全文搜索也保证了这一原则。

由此对比,我们认为虽然基于转移概率模型的评分在理论上是一套更好的评分方法,但是实际操作用问题很多,在没有一个相对而言准确且大量的转移词汇对数据库前,基于BM25评分的搜索算法应该是更实用的。

 

  • 大小: 2.9 KB
  • 大小: 1.5 KB
  • 大小: 5.6 KB
  • 大小: 6.7 KB
分享到:
评论
1 楼 zexunlee 2009-08-14  
此算法已经被Chengxiang Zhai的Risk Minimization Framework超越了。BM25是Robertson老先生的独门绝技,我一大学同学跟老Rob做1.5年博后,现在自己也是博导了,坐飞机似地,羡慕之极。下次我要跟随Zhai,死缠烂打也要跟着Zhai做访问学者(博后没指望了,已经毕业4年了,过了期限)。

相关推荐

    JAVA版BM25排序模型

    基于JAVA开发的BM25排序模型,文件格式为xml。压缩包中含有示例文件xml。

    介绍TFIDF与BM25的优秀PPT

    介绍从TFIDF到BM25的优秀PPT

    elasticsearch IDF BM25函数图像

    es的排序准则的相关度,根据搜索 ...TF/IDF会随着关键词出现的次数得分逐渐增高,BM25随着关键词出现的次数,得分会有一个极限(用两个参数可以进行调节 k1[默认1.2],b[默认0.75])。目前ES5.0以后版本默认使用BM25。

    lucene BM25

    lucene可使用的BM25模型

    BM25算法浅析

    BM25算法浅析

    Lucene示例 BM25相似度计算

    用lucene 4.7.1做的一个Lucene构建索引、进行查询,对比默认的相似度计算与BM25相似度计算输出结果的示例。内容不多,供新手参考

    BM25的算法

    文档搜索中,并没有例如pr(google)这样的权威的评分作为排序的依据,所以有各种各样评分标准来评价我们搜索的相关度,而BM25就是其中比较著名的一种。

    BM25算法介绍

    BM25算法的详细资料,需要的可以参考,比较完整的实现过程。

    基于python的BM25文本匹配算法实现+源代码+文档说明

    BM25算法原理参见我的博文:[【NLP】非监督文本匹配算法——BM25] 测试程序: ```python bm25 = BM25() result = bm25.cal_similarity("自然语言处理并不是一般地研究自然语言") for line, score in result: ...

    【短文本相似度】传统方法BM25解决短文本相似度问题.pdf

    【短文本相似度】传统方法BM25解决短文本相似度问题.pdf

    Algorithm-rank_bm25.zip

    Algorithm-rank_bm25.zip,BM25算法变体的集合,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。

    rank_bm25:BM25算法变体的集合

    到目前为止,已实现的算法是: 霍加api BM25 BM25L BM25 + BM25-Adpt BM25T 这些算法均取自,它对每种方法进行了很好的概述,并对它们进行了基准测试。 一个不错的选择是,他们比较了不同类型的预处理,例如词干...

    相关性算法BM25

    BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法BM25算法

    论文研究-基于BM25算法的主题模型优化算法 .pdf

    基于BM25算法的主题模型优化算法,李宇坤,陈光,本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可读性和独立性。不同于传统热点话题发现算法,本文��

    BM25算法浅析.doc

    算法学习:BM25算法浅析

    山东大学 信息检索技术课设 BM25算法实现

    2020年陈竹敏老师教授的信息检索技术的课设解决方案,语言为python,在提供的baseline基础上进行了一定的修改,包括文档预处理(停用词去除,大小写转换)等处理,MMR可达0.5。

    TF-IDF和BM25算法原理及python实现

    1 TF-IDF TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。 一个用户问题与一个标准问题的TF-IDF相似度,是将用户问题中每一词与标准问题计算得到的TF-IDF值求和。...

    sqlite-okapi-bm25::bookmark_tabs:SQLite扩展以添加Okapi BM25排名算法

    适用于SQLite3的Okapi BM25 该SQLite扩展创建了一个名为okapi_bm25SQL函数,该函数返回以获得全文搜索的结果。 Okapi BM25是一种现代化的排名功能,可根据每个结果与搜索查询的相关性来计算得分。 此扩展仅适用于上...

    python-bm25:python的BM25加权方案的实现

    python-bm25 python的BM25加权方案的实现

    BM25__MapReduce

    BM25__MapReduce 这是BM25框架的代码: 1.Hadoop Map 输入是zipfile 输出是文本文件2.Override FileInputFormat: zipFileInputFile, eachItem 使用三个mapper和ene reducer

Global site tag (gtag.js) - Google Analytics