基于双向迭代和自动构建更新语料库的垃圾评论过滤方法技术

技术编号：12351434 阅读：85 留言：0更新日期：2015-11-19 02:10

本发明专利技术公开了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，包括：获取产品的评论文本以构建语料库，并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集；利用贝叶斯过滤器对正常评论文本集和垃圾评论文本集中的评论文本进行垃圾评论判别，并更新垃圾评论文本集和正常评论文本集；利用贝叶斯过滤器迭代地进行垃圾评论判别，直至相邻两次迭代得到的结果不再变化为止，并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。本发明专利技术的垃圾评论过滤方法迭代地利用贝叶斯过滤器进行垃圾评论判别，能够自动识别出新的垃圾评论文本，实现垃圾评论文本集和正常评论文本集的自动更新，从而获得更加准确的判别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子商务网站中用户评论文本的垃圾评论过滤
，尤其涉及一种。
技术介绍
随着互联网的普及和电子商务应用的迅猛发展，网络中用户评论数据呈指数级增长。这些海量的用户评论数据中蕴藏着大量有价值的信息，能够带来巨大的商业价值。但是，与此同时，网络欺诈、刷钻炒信等现象也随之产生，评论数据中往往存在大量的垃圾评论，如商家广告、炒信评论、恶意评价等，使得用户无法获得商品和卖家的真实评价，也严重的阻碍了信息的挖掘，甚至会导致错误的挖掘结果。因此，垃圾评论过滤十分必要。现有的垃圾评论过滤技术，通常是使用简单的规则，或是利用预先定义的垃圾关键词库来进行垃圾评论过滤的。这类方法的准确率受限于所制定的规则和所定义的垃圾关键词库。此外，由于互联网上新的评论特征词不断地涌现，规则和垃圾关键词库的维护也非常耗时。另外一种典型的垃圾评论过滤方法，通过分析用户的行为，识别出撰写垃圾评论的用户，进而实现对垃圾评论的过滤。但是，很多撰写垃圾评论的用户刻意不发表重复评论，从而避免被系统所识别，导致这些用户所发表的垃圾评论也无法被过滤出来。此外...
<a href="http://www.xjishu.com/zhuanli/55/CN105068986.html" title="基于双向迭代和自动构建更新语料库的垃圾评论过滤方法原文来自X技术">基于双向迭代和自动构建更新语料库的垃圾评论过滤方法</a>

【技术保护点】
一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法，其特征在于，包括如下步骤：(1)获取产品的评论文本以构建语料库，并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集；(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别，并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集；(3)迭代执行步骤(2)，直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止，并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。

【技术特征摘要】

【专利技术属性】
技术研发人员：张宇，刘妙，
申请(专利权)人：浙江理工大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人