当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于词分布和文档特征的垃圾评论自动分类方法技术

技术编号:12571895 阅读:84 留言:0更新日期:2015-12-23 13:25
本发明专利技术公开了一种基于词分布和文档特征的垃圾评论自动分类方法,首先收集网络评论,对评论分词得到关键词集合;再建立词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;之后提取网络评论的文档特征,计算未标注网络评论的分类概率;最后对分类概率计算加权平均,重复上述步骤直到前后两次计算的分类概率相同或达到给定的迭代次数。该方法综合考虑网络评论中词分布特征和文档特征,通过自学习策略自动完成网络评论分类,帮助识别其中的垃圾评论的方法。本发明专利技术计算简单,通用性和扩展性强,只要少量具有标注的网络评论即可对大量的评论进行实时分类,适用于即时更新的网络评论中快速识别垃圾评论的应用需求。

【技术实现步骤摘要】

本专利技术设及计算机应用领域,特别是一种在海量因特网评论中辅助识别垃圾评论 的自动分类方法。 技术背景 随着因特网技术的飞速发展,促生了多种新兴的网络通讯和交流方式。网络用户 可W方便快捷的发表各种评论。网络交流W其良好的自由性、实时性和便捷性正在逐渐改 变人们的沟通方式。 网络技术的发展具有两面性,用户发表评论的自由性和因特网强大的传播能力往 往会被一些用户利用,将各种商业广告或恶意信息发布到网络评论中。近年来,垃圾评论在 因特网中的蔓延趋势愈演愈烈,W垃圾评论为载体的各种商业广告,虚假宣传更是屡见不 鲜。大量存在的垃圾评论不仅极大浪费了网络资源,而且恶意评论会虚造声势、传播负面消 息,进而对社会产生负面影响。 因特网中巨大的用户数量和评论发表量对垃圾评论分类和识别带来挑战。目前针 对网络中垃圾评论自动识别的分类研究还存在局限性:1)可扩展性不强,大多数分类方法 只能针对特定的应用场景,很难进行扩展;2)抽取的特征单一,现有的分类方法只度量评 论的相似性,没有综合考虑词分布特征和文档特征;3)对数据集的依赖性强,需要大量的 评论标注;不能满足对因特网中垃圾评论自动分类的需求。 阳0化]本专利技术方法应用到分词技术和Bayes分类器:单词是最小的具有独立意义的语法 单元,汉语句子中的词之间没有明显的区分标记,需要采用分词技术将输入的汉语评论切 分为具有独立意义的单词。Bayes分类器基于先验概率,采用贝叶斯公式计算目标评论属于 正常评论和垃圾评论的分类概率,其分类结果是选择最大概率所对应的类别。本专利技术中设 及到自学习策略,自学习策略是一种半监督迭代式训练方法,适用于有标注的网络评论比 例较少的情形;将前一轮迭代中得到的分类结果应用到下一轮迭代中,补充有标注的评论 集合,从而提高分类结果的准确性。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于词分布和文档特征的垃圾评论自动 分类方法,该方法计算简单,通用性和扩展性强,只需要少量具有标注的网络评论即可对大 量的评论进行实时分类。 为实现上述目的,本专利技术采用如下的步骤: 1)收集网络评论,对评论分词,得到关键词集合; 2)建立关键词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃 圾评论的分类概率; 3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评 论的分类概率; 4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上 述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。 上述步骤1)中收集网络评论并得到关键词集合的处理流程是:首先整合网络评 论,得到网络评论集合:D=出1,R2…R。},其中Ri表示D中的一条评论(1《i《n),n为评 论总数;根据评论Ri是否带有标注(正常评论=0,垃圾评论=1),将集合D划分为标注集 和目标集,前者包含有标注的网络评论,后者包含没有标注的网络评论;标注集又分为正常 评论集合N和垃圾评论集合S; 然后利用分词技术,对每一个网络评论分词;对分词后的网络评论,删除W下内 容: ?!]化链接; ?手机或座机号码; ?数字; ?表情符号和其他特殊的网络符号; ?停用词,包括语气助词、副词、介词、连接词和标点符号; 汇总所有的网络评论分词结果后,得到的关键词集合记为W={Wi,W2…W,},其中S 是网络评论集合D中所有不同的关键词的数量,wi,听…wj旨各个关键词。上述步骤2)中训练语言模型计算网络评论分类概率的处理流程是:首先建 立词分布矩阵和H"xs,其中n指网络评论的总数,S指全部网络评论中不同的关 键词的数量;矩阵元素1^、>表示评论Ri中关键词Wy在标注集中正常评论下的计算值 (1《i《n, 1《X《S),表示评论Ri中关键词WX在标注集中垃圾评论下的计算值, 和H 的计算公式如下: 其中表示关键词Wy在评论Ri中出现的频率,计算方法是:统计Wy在评论Ri 中出现的次数,记为g(Ri,w、),则Ri中所有关键词出现的总次数为化,,V*)5 种算 公式如下:巧) 阳0巧]TDFw:xi表示关键词Wx在正常评论与垃圾评论中的分布比,TDF 表示Wx在垃 圾评论与正常评论中的分布比,令N表示正常评论集合,S表示垃圾评论集合,了0!^^:、>和TDF&y,的计算公式分别为:其中,f(N,Wy)表示在正常评论集合N中包含Wy的文档数与不包含Wy的文档数 的比值;^S,Wy)表示在垃圾评论集合S中包含Wy的文档数与不包含Wy的文档数的比值, f(N,Wx)和f(S,Wx)的计算公式分别为: 其中常数C用来保证分子分母都不为0,C=0. 05 ; 然后根据词分布矩阵,计算关键词的平均权重;给定关键词心令U(WyJ和U(w、。) 分别表示在标注集中,Wy在垃圾评论中的算术平均值和在正常评论中的算数平均值; U(w,,i)和U(w、。)的计算公式分别为:[003引其中%,冲是词分布矩阵中的元素;将U(w,,i)和U(w,,。)归一化,得到关键 词Wx的相对权重V(WX, 1)和V(W、。): 最后训练一元语言模型,计算网络评论的分类概率;对没有标注的网络评论所构 成的目标集T=出1,R2…Rm},m代表集合T中评论的数量;对T中的每一个评论而,统计每 个关键词Wy在R1中出现的次数g巧1,Wy),再根据关键词Wy的相对权重,分别计算R1属于垃 圾评论的概率化W--从和属于正常评论的概率化化户〇>,其中URi)指对评论Ri的标注: 上述步骤3)中训练Bayes分类器计算网络评论分类概率的处理流程是:首先提取 每一个网络评论的文档特征,对评论Ri,统计W下8个文档特征,构成评论Ri的文档特征向 量ni= (ni,n2...ns}: 阳0创 ni:是否含有URL,若是ni= 1否则n1= 0 ;n2:是否含手机号码或座机号码,右是n2二1否则n2二0 ; W44]ru:英文字符占总字数的比例; W45] n4:数字字符占总字数的比例; ne:表情符号和其他网络符号占总字数的比例; ne:该评论对应的用户发布正常评论与垃圾评论个数的比值; n7:该评论对应的用户的平均评论间隔(单位为秒); n?:该评论对应的用户的平均单日评论量; 然后输入标注集中所有网络评论的文档特征向量及其对应标注,训练Bayes分类 器;接下来,对目标集T=出i,R2…Rm}中的每一个评论Ri,将其文档特征向量提交给训练好 的Bayes分类器,计算评论Ri是垃圾评论的概率P化町W及正常评论的概率P任邮-W。 上述步骤4)中采用自学习策略完成网络评论分类的处理流程是:首先采用加权 平均法,整合步骤2)和步骤3)计算的分类概率;计算评论Ri属于垃圾评论的概率Pii和属 于正常评论的概率Pe\计算公式如下:W54] 其中A是权重,设置为A= 0. 3 ;尸化俯。蛛和所:脚咱.分别当前第1页1 2 3 本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105183715.html" title="一种基于词分布和文档特征的垃圾评论自动分类方法原文来自X技术">基于词分布和文档特征的垃圾评论自动分类方法</a>

【技术保护点】
一种基于词分布和文档特征的垃圾评论自动分类方法,其特征在于包含以下步骤:1)收集网络评论,对评论分词,得到关键词集合;2)建立关键词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评论的分类概率;4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。

【技术特征摘要】

【专利技术属性】
技术研发人员:王建翔顾庆喻黎霞陈道蓄
申请(专利权)人:南京大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1