`

语言模型

阅读更多

恩,首先说语言模型是一个集大成的东西。。。千万不要以为自己知道了一元语言模型后就OK了。。。

 

据我所知,语言模型到现在为止,发到SIGIR上的论文超过100篇。。。应用语言模型的论文不计其数。。。

 

随着统计和机器学习的繁荣给了很多计算机领域一个全新的生命。语言模型也是在这种背景下产生的。。。更严格地说,它属于probabilistic relevance modelquery generation的框架下。在此框架下,证明了语言模型不是无来由的孩子;而基于无监督的统计方法给了语言模型存活的资本;它的简单及灵活性给了它健壮的发展!

 

随着研究的进展,语言模型已经不仅仅局限检索问题,而泛化到用一种统计或者各严格地说,用模型的眼光来看待文本的生成过程。所以当在提出language model的时候,不要把它归结为简单的一元语言模型。我想一个语言模型最基本的问题还是如何刻画一个词的生成过程,这是它最基本的问题。。。而如何用这些词表示一篇文档的生成过程又是一个很关键的问题。就像PLSILDA,从广义的角度,它们都是language model

 

语言模型应用到检索领域中,一个最最关键问题就是如何平滑。而这个问题其实可以归结到机器学习中最基本的问题:参数估计。为什么语言模型的平滑这么重要呢?一个最关键的common sense就是data sparseness。。。当我们仅有有限样本后,如何使得语言模型获得更好的泛化能力,成为了无数研究者的孜孜不倦努力的方向。很幸运,我们有一些很伟大的前驱者:

最常见的平滑方法【基于插值的】

线性插值:最最简单的方法,但是你确定你足够理解他了吗?答案我想对于刚刚接触语言模型的研究者,往往是“没有”。它适合什么样子的query?它为什么适合这个样子?它中间体现了tf.idf的思想了吗?

 

Dirichlet平滑:

关于它的基本常识,我不再啰嗦了。。。

同样的问题:它适合什么样子的query?它为什么适合这个样子?

 

两阶段语言模型:

翟老师的最最牛的一个模型,膜拜。但是它的理论框架在哪里?仅仅是公式的叠加吗?每个过程都在做什么?

 

如果想要了解上面的知识,翟老师的那篇30页左右的论文是必须看的。

 

 

其实对于语言模型还有一个很奇妙的事情,就是为什么它没有显式地引入IDF的思想,而结果却是非常robust? 一个比较新奇的方向也许是如何显示地在语言模型中引入IDF的概念~

 

语言模型和空间向量模型有一点还是值得大家注意的:

它每个维度都是一个概率值;而空间向量模型中,每个维度的权重实际可以是负的。。。因为这是坐标值。

 

如何学习语言模型呢?

1、理解probabilistic relevance model框架

Risk Minimization and Language Modeling in Information Retrieval,

Probabilistic relevance models based on document and query generation

2、理解基本的平滑方法

A study of smoothing methods for language models applied to ad hoc information retrieval,

Two-Stage Language Models for Information Retrieval

3、学习基本的语言模型检索方法:query likelihood and KL-divergence retrieval model

Document language models, query models, and risk minimization for information retrieval

4、理解如何用生成的方法来看待文本:PLSALDA

Latent Dirichlet Allocation

Unsupervised Learning by Probabilistic Latent Semantic Analysis

5、语言模型各种各样的应用。

比如:expert findingpage home finding等等。。。

分享到:
评论

相关推荐

    大规模语言模型:从理论到实践

    大规模语言模型(Large Language Models,LLM),也称大规模语言模型 或大型语言模型 ,是一种 由包含数百亿以上参数的深度神经网络构建的语言模型,使用自监督学习方法通过大量无标注文 本进行训练。自 2018 年以来...

    大语言模型 原理详解完整版

    大语言模型是一种基于深度学习的自然语言处理技术,它可以预测给 定上下文中最可能出现的下一个单词或词组。在近年来,随着深度学 习技术的不断发展和计算能力的增强,大语言模型在自然语言处理领 域得到了广泛应用...

    ChatGPT论大语言模型在教育中的机遇与挑战 .pdf

    大型语言模型代表了人工智能领域的重大进步。基础技术是进一步创新的关键,尽管有批评意见,甚至在社区和地区内禁止,大型语言模型仍然存在。这篇立场论文从学生和教师的角度介绍了大型语言模型的教育应用的潜在好处...

    百川大语言模型fastapi接口服务

    "百川大语言fastapi接口服务"是指使用FastAPI框架来创建一个接口服务,该服务可以调用大语言模型进行各种自然语言处理任务。FastAPI是一个现代、快速(高性能)的Web框架,用于构建API。 下面是大语言模型FastAPI...

    大语言模型原理.docx

    大型语言模型的实现技术原理与应用 随着人工智能技术的不断发展,语言模型逐渐成为人们关注的焦点。语言模型是一种能够处理自然语言的计算机程序,能够学习人类语言的语法、语义和用法,并通过大量的语言数据进行...

    中文版多角度对大语言模型综述

    在过去的二十年中得到了广泛的研究,其从统计语言模型发展为神经语言模型。近年来,通过在大规模语料库上预训练,基于 Transformer 架构的预训练语言模型在解决各种自然语言处理任务方面表现出强大的能力。由于研究...

    阿里通义千问AI模型目前最强的开源中文大语言模型(下载地址).txt

    同时,在Qwen-14B的基础上,我们使用对齐机制打造了基于大语言模型的AI助手Qwen-14B-Chat。本仓库为Qwen-14B-Chat的仓库。 7B大概在一个月前发布,这次发布了14B版本。单从测评数据来看,要比上次讲的Baichuan2还要...

    大语言模型面试题,校招面试必备,给自己面试增加成功的概率

    大语言模型面试题,校招面试必备,给自己面试增加成功的概率 大语言模型面试题,校招面试必备,给自己面试增加成功的概率 大语言模型面试题,校招面试必备,给自己面试增加成功的概率 大语言模型面试题,校招面试...

    大型语言模型 (LLM)全解读.pdf

    大型语言模型 (LLM)全解读

    除了ChatGPT之外,还有哪些大语言模型?

    除了ChatGPT之外,还有很多大型的语言模型。下面小编介绍一些主要的大型语言模型。 1. BERT(Bidirectional Encoder Representations from Transformers):BERT是由Google在2018年开发的一种预训练语言模型。它使用...

    大型语言模型的快速介绍.pptx

    大型语言模型的快速介绍.pptx

    大型语言模型的全面回顾.pptx

    大型语言模型的全面回顾.pptx

    大语言模型的工作原理与发展.pdf

    随着人工智能领域的迅速发展,大语言模型已经成为了自然语言处理和人工智能研究的焦点之一。它们能够自动生成人类语言风格的文本,具有广泛的应用前景,如智能助手、自动文本生成、机器翻译等。本文将深入探讨大语言...

    DB-GPT数据库大语言模型

    DB-GPT数据库大语言模型 DB-GPT数据库大语言模型 DB-GPT数据库大语言模型 DB-GPT数据库大语言模型

    大语言模型提示注入攻击安全风险分析报告

    大语言模型提示注入攻击安全风险分析报告指出,现代文本生成模型的广泛应用也带来了新的安全挑战,其中之一便是“提示注入攻击”。这种攻击利用对模型的工作原理有深入了解的攻击者,通过在生成文本的提示中插入恶意...

    ChatGPT原理介绍:从语言模型走近ChatGPT

    其基本原理是使用语言模型来预测下一个单词或字符的概率分布,并将其作为生成响应的基础。ChatGPT通过多层的Transformer模型进行建模,能够自动学习语言的特征,并在对话中不断优化模型,从而提供更加流畅、自然的...

    基于pytorch的中文语言模型预训练模型源码

    基于pytorch的中文语言模型预训练模型源码

    基于语言模型的预训练技术研究综述

    预训练技术当前在自然语言处理领域占有...该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。

    基于python的利用语言模型纠正OCR识别错误代码实现

    基于python的利用语言模型纠正OCR识别错误代码实现

    大语言模型集成应用器,大语言微调模型,结合本地知识库模式

    大语言模型集成应用器,集成市面上主流的大语言模型,结合langchain本地知识库模式,让垂直领域微调以后的大模型,发挥更好的作用,回答问题更准确,更好的ui界面支持,支持自己微调的垂直类别模型,支持流式输出,...

Global site tag (gtag.js) - Google Analytics