`

语言模型在信息检索中的应用

阅读更多

语言模型在信息检索中的应用

 

背景

聂建云博士是加拿大蒙特利尔大学(University of Montreal, Canada)的教授,主要研究方向是信息检索,自然语言处理等。6日上午,聂博士接受邀请,为计算机学院做了一次报告,主题为Integrating Term Relationships into Language Models for Information Retrieval目前很多学者致力于统计模型的研究。语言模型在信息检索中的应用从1998年开始。我们实验室开始关注语言模型方法在信息检索的应用。这次有机会听到聂博士的报告,对于我们理解语言模型有非常大的帮助。

 

听讲座期间,我做了一些笔记。

 

基于语言模型的信息检索

语言模型

语言模型(Language Model, LM)的目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。

语言模型最开始诞生在语音识别领域,识别给定的语音信号对应的词序列。语言模型的基本原理是

 

   其中hi表示历史信息。随着hi

一元模型(Unigram)、二元模型(Bigram)、三元模型(Trigram)

在实际中应用模型的时候,有一个取舍问题:

 

History

Short

Long

Modeling

Corse

Refined

Estimation

Easy

Difficult

 

根据资源规模和模型细致程度选择。

 

参数估计

模型的参数估计一般采用极大似然估计(Maximum Likilihood Estimation, MLE),不过MLE有一个问题,那就是对出现的项估计很好,对于没有出现的项,则认为是概率为0的实践。如果直接采用MLE估计参数,效果可能会很不好。平滑(smoothing)MLE的问题而提出的。Smoothing技术思想就是调整一下概率的分布,给语料中没有出现的项(认为是“事件”)一个小但不为零概率,降低语料中出现次数比较多的项的概率。

 

平滑技术

平滑常用的方法有多种。

 

调整出现概率的平滑方法:

Laplace smoothing( add-one smoothing )

Good-Turing smoothing

 

以低阶模型相结合的方法:

Backoff (Katz)

Interpolation (Jelinek-Mercer)

 

其他方法:

Combined with corpus

Dirichlet

Two-stage

 

语言模型在信息检索中的应用

目前在IR(Information Retrieval)中应用LM(Language Model),基本原理有4

 

原理 1

Document D

Language model P(w|MD)

Query Q

Sequence of words q1,q2,..,qn (uni-grams)

Matching

P(Q|MD)

 

原理2

Document D

Language model P(w|MQ)

Query Q

Sequence of words d1,d2,..,dn

Matching

P(Q|MQ)

 

原理3

Document D

Language model P(w|MD)

Query Q

Language model P(w|MQ)

Matching

Comparison between P(w|MD) and P(w|MQ)

 

原理4(翻译模型)

 

Translate D to Q

 

原理1提出的,为经典的LM中的应用。平滑中可能出现的问题:

文章太短(Short document)

MDMD)

没有出现的词(Unseen words)

 

[Ponte&Croft 1998]原理2的包含信息太少,建立LM原理4P(qi|wj)

 

语言模型小结

Can a query be generated from adocument model?

Does a document become morelikely when a query is submitted (or reverse)?

Is a query a "translation" of a document?

Smoothing is crucial

Often use uni-grams

 

语言模型对信息检索的贡献

有良好的理论框架(Well founded theoretical framework)

有大量的可用数据(Exploit the mass of data available)

概率估计的参数平滑技术(Techniques of smoothing for probability estimation)

能够通过平滑解释一些经验和启发式方法(Explain some empirical and heuristic methods by smoothing)

令人兴奋的试验结果(Interesting experimental results)

使用LMIR一些问题

 

目前LM方法在IR,没有其他知识的情况下,系统不能预测到这是和computerbi-gram[1] 这里应用了一个隐马尔科夫假设。

分享到:
评论

相关推荐

    论文研究-基于LDA模型的Adhoc信息检索方法研究.pdf

    应用LDA模型将文档表示为多个话题的组合,并基于语言模型框架,提出了一种基于LDA的混合模型用于文本信息的Ad hoc检索。该方法将LDA模型与文档模型相结合,与聚类模型相比,在保持较低的计算复杂度外,具有很高的...

    Azure Cognitive Search进行检索和Azure OpenAI大型语言模型

    一个在Azure中运行的检索-增强生成模式的示例应用程序,使用Azure Cognitive Search进行检索和Azure OpenAI大型语言模型来支持chatgpt风格和问答体验。

    VLE:视觉-语言多模态预训练模型一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等

    在本项目中,我们推出了VLE (Vision-Language Encoder),一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力有更强...

    2023大模型与AIGC峰会(公开)PPT汇总(25份).zip

    大语言模型在ICT运维领域的研究及应用 基于协作的自解释 NLP 模 3、强化学习论坛 多智能体强化学习大模型初探 游戏AI Bot的拟人化和风格化:AIGA赋能游戏探索 AIGC与大模型赋能机器人智能控制 4、信息抽取与检索...

    论文研究-基于自然语言的检索方法在图案数据库中的应用研究.pdf

    基于自然语言的检索方法已经应用到许多数据库系统中。根据图案数据库的特点,提出了一个基于自然语言的检索模型,论述了怎样将自然语言转换成查询语句(SQL语句)需要注意的一系列问题。

    金融行业中文大语言模型chat-gpt.rar

    一个金融领域的大语言模型,由面向不同金融场景的4个模组:金融咨询、金融文本分析、金融计算、金融知识检索问答构成的多专家智慧金融系统。这些模组分别在金融NLP任务、人类试题、资料分析和时事分析等四个评测中...

    Langchain-Chatchat基于 Langchain 与 ChatGLM 等语言模型的本地知识库问答

    基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。版本0.2.9版本。 受 GanymedeNil 的项目 document.ai 和 AlexZhangji 创建的 ChatGLM-6B Pull ...

    统计自然语言处理第二版

    内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、...

    统计自然语言处理

    内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和...

    在量子语言模型中对量子纠缠建模

    最近,提出了一种量子语言模型(QLM)来对术语依赖于量子理论(QT)框架进行建模,并相继应用于信息检索(IR)中。 尽管如此,QLM的依存关系是基于术语的共现,尚未考虑量子纠缠(QE),它是一个关键的量子概念,...

    信息检索研究室论文集第一卷

    隐马尔科夫模型和HowNet 在汉语词义标注中的应用 87 计算机应用研究, 2003, 9 Chinese Word Sense Disambiguation Based on HMM and Hownet 15. 李彬 刘挺 秦兵 李生 基于语义依存的汉语句子相似度计算 91 计算机...

    宗成庆统计自然语言处理 .pdf

    内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和...

    深度学习方法及应用 完整版

    8在语言模型和自然语言处理中的相关应用 8.1语言模型 8.2自然语言处理 9信息检索领域中的应用 9.1信息检索简介 9.2用基于深度自编码器的语义哈希方法对文档进行索引和检索 9.3文档检索中的深度结构语义模型 9.4信息...

    基于 ChatGLM 等大语言模型与 Langchain 等应用langchain-chatchat-master.zip

    基于 ChatGLM 等大语言模型与 Langchain 等应用框架实现,开源、可离线部署的检索增强生成(RAG)大模型知识库项目。 重要提示 0.2.10将会是0.2.x系列的最后一个版本,0.2.x系列版本将会停止更新和技术支持,全力研发...

    结合语义的位置语言模型 (2013年)

    针对位置语言模型没有考虑词与词之间语义关系的问题...最后将结合语义的位置语言模型应用于信息检索,得到一个基于该模型的检索模型。实验结果表明,基于该模型的检索模型在性能方面要优于基于位置语言模型的检索模型。

    vc 解析XML,可实现信息的语义检索

    作为W3C公布的一种跨平台、与语言无关的接口规范,DOM提供了在不同环境和应用中的标准程序接口,可以用任何语言实现。  DOM采用对象模型和一系列的接口来描述XML文档的内容和结构,即利用对象把文档模型化。这种...

    尝试各种神经网络模型在ctr预测中的应用。.zip

    我们深入探讨了深度学习的基本原理、神经网络的应用、自然语言处理、语言模型、文本分类、信息检索等领域。更有深度学习、机器学习、自然语言处理和计算机视觉的实战项目源码,助您从理论走向实践,如果您已有一定...

    统计自然语言处理(第2版)

    内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、...

    计算机自然语言处理

    应用篇,论述了在音字转换、自动文摘、信息检索、手写体识别等应用领域中 的实用语言处理方法。 本书可供有志于从事自然语言处理技术研究和应用开发的计算机相关专业 的研究生,大学高年级学生和科技人员参考,也...

    [高清]统计自然语言处理(第二版)宗庆成

    内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、...

Global site tag (gtag.js) - Google Analytics