文本的情感分析研究

summerbell

浏览: 801040 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

研究技术综合

情感领域模型制造全文检索体育

第六章文本的情感分析研究

6.1引言

传统上的文本分类往往关注于把文本映射到给定的主题，如体育，经济，政治等[122]。然而，近些年来对文本非主题分析的兴趣不断增加，Biber[123]的工作把文本就其来源和体裁风格(style)的不同进行分类，如作者，出版社和母语背景等。在诸如web网页，新闻组和在线新闻数据库这样的在线文本中，有大量隐含的信息可以利用，而在这些可用的信息中，一种有用的信息类型就是人们对一个主题表达出来的“情感”，或者“评价”。这里的主题可以是一个感兴趣的话题，或者是这个话题的一个方面。

举例来说，对一个产品制造商而言，知道他们自己产品的声誉或者竞争对手产品、品牌的声誉，对他们自己的产品发展、市场和客户关系经营是非常有价值的。传统上，公司会为了了解这些信息作客户调查，这需要花费很多人力对用户满意度进行调查和对问卷进行分析。如果想要获得足够的调查信息的话，无论多么精心设计的对质量评估的调查都会导致高昂的费用。另外，尽管花费了大量的金钱和努力，这种调查的有效性通常是很有限的，既因为调查样本大小的限制，还因为制造有效的调查问卷表的困难。这样就有了一个很自然的需求:通过在线文本(如web网页，聊天室和新闻文本)的文本内容分析，自动探测和分析对感兴趣话题的“喜爱度”，而不是通过调查问卷来制造特定的调查。人们可以很容易地识别在这些在线文本中的自然的评价。除此之外，能有效的监控这些在线文本可能也是很重要的，因为它们有时候会影响公众的观点，而且在线文本中负面的流言可能对某些组织造成后果严重的问题。这样就出现了一种适用于特定领域(比如某个组织或其产品)的，面向大规模文本，探测文本对所谈论主题的“喜欢”(“favorable”)和“不喜欢”(“unfavorable”)评价的技术，为多种应用提供了支持。这种技术往往是集中在一个特定主题的内容分析，为竞争力分析、市场分析以及为风险管理的“不受欢迎”的谣言的探测，这就是所谓的文本内容的情感分析[124][125]。情感分析对于公司和独立用户的商业活动而言，是很有用的一种工具，可以为产品，服务或者品牌的评价进行分类。情感分析已在如电影评论、产品评价、用户反馈等领域中得到了尝试[126][127][128][129]。

尽管文本情感分析兴起不久，但针对情感的自动文本分析已有很广泛的研究，如情感分类器[122][127][130][131][132]，影响分析[133][134]，自动调查分析[135][131]，评价抽取[136]以及推荐系统[137]。这些方法都是试图识别和文本相关的全局上的情感，要么是“喜欢”的，要么是“不喜欢”的，或者是一种“中立”的态度。基于全文的情感分析只是情感分析的一种形式，全文的情感分析的结论只有一个，即整体而言是“喜欢”还是“不喜欢”，这样就很难探测有关一个主题某个方面的细致情感。举例来说，尽管一个评论表示总体上很喜欢一个数码照相机，但是也可能提到他认为这个数码相机的可选颜色比较少。对一个制造商来说，这种产品局部的缺点对于后面开发新的产品很重要，这比总体评价更有价值。因此，把注意力放在局部文本关于主题情感的描述上，而不仅仅对全局的喜爱度的分析，是很自然和有意义的。

正因为情感分析具有全局性也具有局部性，所以情感分析的研究可以分为两条路线:(l)基于全文的情感分析，往往采用机器学习的方法，把情感分析看成是一个模式分类问题;(2)基于局部的情感分析，采用的方法往往要结合自然语言处理的技术，比如语言学模板[125]，句法分析[124]，机器翻译[138]。

相应的，本文提出了一种通过语言建模区分文本情感倾向的方法，针对基于全局和局部的情感分析模式作了尝试。思路就是，(1)对全局语言建模的方法而言，重点在于从训练集中估计出表示“喜欢”和“不喜欢”的语言模型，用于表示人在表达不同情感时的统计语言习惯。对一个同样用语言模型表示的测试文本，通过计算它和这两个情感模型的距离来评价它的情感倾向。为了检验这个想法的有效性，本文把这种语言建模的方法和代表两种不同的分类模型的典型分类器，支持向量机(区分模型)和贝叶斯分类器(生成模型)作了对比。(2)对局部语言建模的方法而言，本文处理的情感单元是句子。首先获取领域中被着重评价的有关主题的基本特征，在本文用“term”代表，然后为每一个领域内的term生成了两个语言模型，用来捕获情感上下文的差异。在这些语言模型中，句子被拆分成term和它们的上下文。忽略那些不包含这种定义的term的句子，认为这样的句子对文本级的情感分类没有贡献。因此，本文在训练和测试文本的时候，都忽略了这样的句子。这种把一个文本分成主观和客观两部分的想法和「128」中的工作相似。从本质上来讲，无论从全局还是局部的语言建模，由于事先要估计一个模型，在此基础上进行推理，所以本文的方法也是一种生成模型。

“喜欢”和“不喜欢”的情感评价是一个要求极高的智能任务，需要对文本上下文的深人分析，根据常识、领域知识，以及语言学知识才有可能得到结论。评价的解释即便对人而言，也可以是有争议的。如下面的例子:

这款产品很好但是很贵。

就包含了两种情感倾向。但是认为大家都会同意下面的句子，

这款产品很好。

表明了一种“喜欢”的情感，可以认为这种理解是广泛接受的。对一个主题，当我们试图决定一个特定文本到底是“喜欢”还是“不喜欢”，有时候会发现要达到一致的、客观的意见很困难，即便是一个人数很少的评价团来做裁定。所以，本文的工作还只是一项正在不断深化的工作，仅给出了基于语言模型实现情感分类想法的一个框架和初始的结果，并不是对本文提出的解决方案的一个已经完备的分析及情感分析任务的圆满解答。

6.2相关工作

语言学上的启发规则。

使用学习算法来分类文本。

参考：面向信息检索的文本内容分析

分享到：

log4j.properties配置详解 | 回顾百度的"北斗"与"凤巢"计划分析

2009-10-13 17:03
浏览 9130
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论