问答社区的问题分类任务

summerbell

浏览: 800102 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

算法互联网游戏领域模型生活

问答社区的问题分类任务

最近在研究问答社区的问题分类任务。问答社区的问题文本一般比较短，很难用常规的文本分类算法来很好的归类。

做了一个新算法。主要考虑两个方面：

正确率和召回率。

计算量。

正确率和召回率：用微F测度来衡量。与传统分类算法的比较见下图：

之所以未同SVM比较，是因为在这个时刻，SVM还在训练过程中……当然我承认我选的数据有点变态，近90w条，并且有数万维的空间向量。希望SVM可以早点出结果LOL。事实上，据2001年TREC文本过滤比赛第一的DavidD.Lewis声称，他的比赛程序采用SVMLight作为分类器内核，对英文词汇进行了去词缀处理，但没有去停用词，因此估计特征项大约在20000维左右，用SUN的服务器运行了整整一周，才得到实验结果。OMG~

至于为何为何kNN比较……其实……基于类文档排名分类的算法就是kNN在语言模型下的一个特例……

计算量：在我的pc机上每秒可以分类近2w个问题文本；

一般的问答服务网站，针对用户的提问，会给出多个可能的类别供用户选择。在我们的系统中，如果为用户提供3个可能的选择类别，则有93%以上的概率正确的类别可以被包含。

我们的实验基于新浪问答中用爬虫得到的10个领域（汽车、电脑/互联网、教育、演艺娱乐、家庭生活、游戏、健康医学、买房装修、科学技术、运动爱好）的超过100w条数据。感谢新浪问答对爬虫的容忍……

查看图片附件

分享到：

AdaBoost算法原理 | matlab画线图

2009-11-25 11:36
浏览 1560
评论(2)
查看更多

2 楼 summerbell 2009-12-20

arsog 写道

可不可以说一下你的算法呢？

你试试SVM。不降维。选线性核函数。

1 楼 arsog 2009-12-17

可不可以说一下你的算法呢？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论