第六章文本的情感分析研究
6.1引言
传统上的文本分类往往关注于把文本映射到给定的主题,如体育,经济,政治等[122]。然而,近些年来对文本非主题分析的兴趣不断增加,Biber[123]的工作把文本就其来源和体裁风格(style)的不同进行分类,如作者,出版社和母语背景等。在诸如web网页,新闻组和在线新闻数据库这样的在线文本中,有大量隐含的信息可以利用,而在这些可用的信息中,一种有用的信息类型就是人们对一个主题表达出来的“情感”,或者“评价”。这里的主题可以是一个感兴趣的话题,或者是这个话题的一个方面。
举例来说,对一个产品制造商而言,知道他们自己产品的声誉或者竞争对手产品、品牌的声誉,对他们自己的产品发展、市场和客户关系经营是非常有价值的。传统上,公司会为了了解这些信息作客户调查,这需要花费很多人力对用户满意度进行调查和对问卷进行分析。如果想要获得足够的调查信息的话,无论多么精心设计的对质量评估的调查都会导致高昂的费用。另外,尽管花费了大量的金钱和努力,这种调查的有效性通常是很有限的,既因为调查样本大小的限制,还因为制造有效的调查问卷表的困难。这样就有了一个很自然的需求:通过在线文本(如web网页,聊天室和新闻文本)的文本内容分析,自动探测和分析对感兴趣话题的“喜爱度”,而不是通过调查问卷来制造特定的调查。人们可以很容易地识别在这些在线文本中的自然的评价。除此之外,能有效的监控这些在线文本可能也是很重要的,因为它们有时候会影响公众的观点,而且在线文本中负面的流言可能对某些组织造成后果严重的问题。这样就出现了一种适用于特定领域(比如某个组织或其产品)的,面向大规模文本,探测文本对所谈论主题的“喜欢”(“favorable”)和“不喜欢”(“unfavorable”)评价的技术,为多种应用提供了支持。这种技术往往是集中在一个特定主题的内容分析,为竞争力分析、市场分析以及为风险管理的“不受欢迎”的谣言的探测,这就是所谓的文本内容的情感分析[124][125]。情感分析对于公司和独立用户的商业活动而言,是很有用的一种工具,可以为产品,服务或者品牌的评价进行分类。情感分析已在如电影评论、产品评价、用户反馈等领域中得到了尝试[126][127][128][129]。
尽管文本情感分析兴起不久,但针对情感的自动文本分析已有很广泛的研究,如情感分类器[122][127][130][131][132],影响分析[133][134],自动调查分析[135][131],评价抽取[136]以及推荐系统[137]。这些方法都是试图识别和文本相关的全局上的情感,要么是“喜欢”的,要么是“不喜欢”的,或者是一种“中立”的态度。基于全文的情感分析只是情感分析的一种形式,全文的情感分析的结论只有一个,即整体而言是“喜欢”还是“不喜欢”,这样就很难探测有关一个主题某个方面的细致情感。举例来说,尽管一个评论表示总体上很喜欢一个数码照相机,但是也可能提到他认为这个数码相机的可选颜色比较少。对一个制造商来说,这种产品局部的缺点对于后面开发新的产品很重要,这比总体评价更有价值。因此,把注意力放在局部文本关于主题情感的描述上,而不仅仅对全局的喜爱度的分析,是很自然和有意义的。
正因为情感分析具有全局性也具有局部性,所以情感分析的研究可以分为两条路线:(l)基于全文的情感分析,往往采用机器学习的方法,把情感分析看成是一个模式分类问题;(2)基于局部的情感分析,采用的方法往往要结合自然语言处理的技术,比如语言学模板[125],句法分析[124],机器翻译[138]。
相应的,本文提出了一种通过语言建模区分文本情感倾向的方法,针对基于全局和局部的情感分析模式作了尝试。思路就是,(1)对全局语言建模的方法而言,重点在于从训练集中估计出表示“喜欢”和“不喜欢”的语言模型,用于表示人在表达不同情感时的统计语言习惯。对一个同样用语言模型表示的测试文本,通过计算它和这两个情感模型的距离来评价它的情感倾向。为了检验这个想法的有效性,本文把这种语言建模的方法和代表两种不同的分类模型的典型分类器,支持向量机(区分模型)和贝叶斯分类器(生成模型)作了对比。(2)对局部语言建模的方法而言,本文处理的情感单元是句子。首先获取领域中被着重评价的有关主题的基本特征,在本文用“term”代表,然后为每一个领域内的term生成了两个语言模型,用来捕获情感上下文的差异。在这些语言模型中,句子被拆分成term和它们的上下文。忽略那些不包含这种定义的term的句子,认为这样的句子对文本级的情感分类没有贡献。因此,本文在训练和测试文本的时候,都忽略了这样的句子。这种把一个文本分成主观和客观两部分的想法和「128」中的工作相似。从本质上来讲,无论从全局还是局部的语言建模,由于事先要估计一个模型,在此基础上进行推理,所以本文的方法也是一种生成模型。
“喜欢”和“不喜欢”的情感评价是一个要求极高的智能任务,需要对文本上下文的深人分析,根据常识、领域知识,以及语言学知识才有可能得到结论。评价的解释即便对人而言,也可以是有争议的。如下面的例子:
这款产品很好但是很贵。
就包含了两种情感倾向。但是认为大家都会同意下面的句子,
这款产品很好。
表明了一种“喜欢”的情感,可以认为这种理解是广泛接受的。对一个主题,当我们试图决定一个特定文本到底是“喜欢”还是“不喜欢”,有时候会发现要达到一致的、客观的意见很困难,即便是一个人数很少的评价团来做裁定。所以,本文的工作还只是一项正在不断深化的工作,仅给出了基于语言模型实现情感分类想法的一个框架和初始的结果,并不是对本文提出的解决方案的一个已经完备的分析及情感分析任务的圆满解答。
6.2相关工作
语言学上的启发规则。
使用学习算法来分类文本。
参考:面向信息检索的文本内容分析
分享到:
相关推荐
因此,基于深度学习的文本情感分析也得到了广泛的研究。 本文主要分为两个部分。 第一部分简要介绍了情感分析的传统方法。 第二部分介绍了基于深度学习的几种典型情感分析方法。 归纳和分析了情感分析的优缺点,为...
基于深度学习的文本情感分析研究.docx
第二,用大规模语料训练Attention-LSTM情感分类模型与将卷积神经网络应用到文本分析的TextCNN模型的实验进行对比,证明Attention-LSTM在文本情感分析的效果更好。 第三,在微博上爬取的小规模语料上做情感分析,分析...
中文文本情感分析案例 课程配套程序 该文件夹是本次课程配套的程序,打来即可使用 课后作业数据集 为大家课后作业的数据集,可以在该数据集上进行相关训练 test.tsv为测试数据集,测试模型准确度 train.tsv为训练...
基于文本情感分析的电商产品评论数据研究.pdf
基于数据挖掘技术的文本情感分析技术研究.pdf
文本情感分析是随着网络评论的海量增长而迅速兴起的一个新兴研究课题,其研究价值和应用价值受到人们越来越多的重视.本文对文本情感分析的研究现状与进展进行了总结.
三是研究并实现了SVM和DNN两个最具代表性的模型在中文情感分析领的应用,完成了大数据的数据挖掘过程。并在已有的数据集上进行了实验,由具体实验结果我们发现SVM神经网络模型取得了78.03%的F值,较DNN(88%)方法低了...
基于文本情感分析的社交媒体数据挖掘.pdf
基于卷积神经网络和注意力模型的文本情感分析 CNN Attention
基于机器学习的文本情感分类研究 详细算法文档,pdf格式,高清扫描版 >120页,内容比较详细,需要一定理论功底。
基于BERT的德语社交媒体文本情感分析,李澜,叶勇超,德语语法复杂,语序多变,造成其社交媒体文本情感分析难度较大,相关研究较少。为解决以上研究难点,本文分析了德语及其社交媒体文本��
微博文本情感分析代码及数据
基于深度学习的文本情感分析并行化算法.pdf
本项目按照传统的文本分析方法,并根据微博的特点进行了情感分析。主要在以下方面展开了研究: (1)对微博的降噪清理。从微博短文本的的特点,分析了采用Hash方法的URL并将其过滤,并将跟情感分析无关的用户名等...
毕业设计-基于python的微博情感分析与文本分类系统实现
为了将情感信息融入到词向量中,本文第一部分工作提出了两个情感词向量 学习框架,即,基于谷歌提出的Skip-gram模型的框架和基于卷积神经网络模型 的框架。在每个框架中,根据情感和语义信息融合...
基于深度学习的文本情感分析.pdf
针对社交网络数据的文本情感分析,目前常用的研究方法主要是基于传统机器学习算法,根据手工标注好的情感词典,对文本信息使用朴素贝叶斯、支持向量机、最大熵方法等机器学习算法进行情感分析。为了避免对手工方式...