基于双向迭代和自动构建更新语料库的垃圾评论过滤方法技术

技术编号:12351434 阅读:85 留言:0更新日期:2015-11-19 02:10
本发明专利技术公开了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,包括:获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;利用贝叶斯过滤器对正常评论文本集和垃圾评论文本集中的评论文本进行垃圾评论判别,并更新垃圾评论文本集和正常评论文本集;利用贝叶斯过滤器迭代地进行垃圾评论判别,直至相邻两次迭代得到的结果不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。本发明专利技术的垃圾评论过滤方法迭代地利用贝叶斯过滤器进行垃圾评论判别,能够自动识别出新的垃圾评论文本,实现垃圾评论文本集和正常评论文本集的自动更新,从而获得更加准确的判别结果。

【技术实现步骤摘要】

本专利技术涉及电子商务网站中用户评论文本的垃圾评论过滤
,尤其涉及一 种。
技术介绍
随着互联网的普及和电子商务应用的迅猛发展,网络中用户评论数据呈指数级增 长。这些海量的用户评论数据中蕴藏着大量有价值的信息,能够带来巨大的商业价值。 但是,与此同时,网络欺诈、刷钻炒信等现象也随之产生,评论数据中往往存在大 量的垃圾评论,如商家广告、炒信评论、恶意评价等,使得用户无法获得商品和卖家的真实 评价,也严重的阻碍了信息的挖掘,甚至会导致错误的挖掘结果。因此,垃圾评论过滤十分 必要。 现有的垃圾评论过滤技术,通常是使用简单的规则,或是利用预先定义的垃圾关 键词库来进行垃圾评论过滤的。这类方法的准确率受限于所制定的规则和所定义的垃圾关 键词库。此外,由于互联网上新的评论特征词不断地涌现,规则和垃圾关键词库的维护也非 常耗时。 另外一种典型的垃圾评论过滤方法,通过分析用户的行为,识别出撰写垃圾评论 的用户,进而实现对垃圾评论的过滤。 但是,很多撰写垃圾评论的用户刻意不发表重复评论,从而避免被系统所识别,导 致这些用户所发表的垃圾评论也无法被过滤出来。 此外还有一些学者提出了基本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN105068986.html" title="基于双向迭代和自动构建更新语料库的垃圾评论过滤方法原文来自X技术">基于双向迭代和自动构建更新语料库的垃圾评论过滤方法</a>

【技术保护点】
一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,包括如下步骤:(1)获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别,并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集;(3)迭代执行步骤(2),直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。

【技术特征摘要】

【专利技术属性】
技术研发人员:张宇刘妙
申请(专利权)人:浙江理工大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1