`

问答社区的问题分类任务

    博客分类:
阅读更多

问答社区的问题分类任务

 

最近在研究问答社区的问题分类任务。问答社区的问题文本一般比较短,很难用常规的文本分类算法来很好的归类。

做了一个新算法。主要考虑两个方面:

 

正确率和召回率。

计算量。

 

正确率和召回率:用微F测度来衡量。与传统分类算法的比较见下图:

 



 

       之所以未同SVM比较,是因为在这个时刻,SVM还在训练过程中……当然我承认我选的数据有点变态,近90w条,并且有数万维的空间向量。希望SVM可以早点出结果LOL。事实上,据2001TREC文本过滤比赛第一的DavidD.Lewis声称,他的比赛程序采用SVMLight作为分类器内核,对英文词汇进行了去词缀处理,但没有去停用词,因此估计特征项大约在20000维左右,用SUN的服务器运行了整整一周,才得到实验结果。OMG~

       至于为何为何kNN比较……其实……基于类文档排名分类的算法就是kNN在语言模型下的一个特例……

 

       计算量:在我的pc机上每秒可以分类近2w个问题文本;

 

       一般的问答服务网站,针对用户的提问,会给出多个可能的类别供用户选择。在我们的系统中,如果为用户提供3个可能的选择类别,则有93%以上的概率正确的类别可以被包含。

 

       我们的实验基于新浪问答中用爬虫得到的10个领域(汽车、电脑/互联网、教育、演艺娱乐、家庭生活、游戏、健康医学、买房装修、科学技术、运动爱好)的超过100w条数据。感谢新浪问答对爬虫的容忍……

  • 大小: 22.3 KB
分享到:
评论
2 楼 summerbell 2009-12-20  
arsog 写道
可不可以说一下你的算法呢?

你试试SVM。不降维。选线性核函数。
1 楼 arsog 2009-12-17  
可不可以说一下你的算法呢?

相关推荐

Global site tag (gtag.js) - Google Analytics