一种基于向量空间模型的中文虚假评论过滤方法技术

技术编号:17516535 阅读:30 留言:0更新日期:2018-03-21 01:08
本发明专利技术公开了一种基于向量空间模型的中文虚假评论过滤方法,通过改进版向量空间模型判断评论间的相似性,将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分,筛选出另一部分虚假评论。并且引入一部分真实评论样本,使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。

A Chinese false comment filtering method based on vector space model

The invention discloses a Chinese false review filtering method based on vector space model, and judges the similarity between commentaries through the improved version vector space model, and takes the highly similar comment as a part of the false comment. At the same time, combining the emotional polarity of the review and the user score, another part of the false comment is selected. In addition, some samples of real comments are introduced and the BP neural network is trained by these two types of samples. Use a trained network to judge unlabeled comments.

【技术实现步骤摘要】
一种基于向量空间模型的中文虚假评论过滤方法
本专利技术属于机器学习
,更为具体地讲,涉及一种基于向量空间模型的中文虚假评论过滤方法。
技术介绍
随着互联网技术的日益成熟,消费者网络点评积极性逐渐增强,网络上产生了数量庞大的评论数据。用户利用这些评论信息辅助消费决策的同时,也饱受评论质量参差不齐、信息过载等问题的困扰。网络在给消费者带来便捷体验的同时,也由于它本身的无地域限制的特点导致了消费依据匮乏、商品描述信息与实际不符等弊端。因此越来越多的消费者在消费前都不得不先去了解已购顾客对该产品的评价和态度,以便做出可靠的决策。但随着评价数量的飞速增长以及评价内容的五花八门,用户越来越难以获取有价值的评价信息。仅依靠人工方法难以从海量的评论中识别出真正对用户有价值的信息,迫切需要自动化方法辅助人们进行甄别,因而对文本内容的评价筛查有重要的研究价值。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于向量空间模型的中文虚假评论过滤方法,基于BP神经网络识别影评网站的虚假评论,以便达到为用户提供真实的消费参考。为实现上述专利技术目的,本专利技术为一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中所有词的出现次数之和;n表示在整个语料中评论的总数,而表示含有当前词的评论数;(5.2)、构建改进版向量空间模型其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评论中的词频TF和反词频IDF统计乘积;(5.3)、利用改进版向量空间模型计算任意两条评论的相似度,筛选出相同或相似评论标记为虚假评论,并标记为正例样本一;(6)、根据BosonNLP情感词典数据和知网情感分析词数据对步骤(4)中未标记的评论进行进行情感打分,再根据情感得分进行情感极性判断,Score>0判断为正向,Score<0判断为负向;将情感极性为正且用户评分低于平均评判标准,或者情感极性为负且用户评分高于平均评判标准的评论标记为虚假评论,并作为负例样本二;(7)、对步骤(4)中未标记的评论按每个用户的评论次数对用户进行降序排序,再将前1%用户的所有评论标记为虚假评论,并作为负例样本三;(8)、将步骤(4)、(5)、(6)、(7)得到的正例样本和负例样本分别组成正例向量和负例向量;再将正例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“1”;将负例向量输入至BP神经网络,通过迭代,使用前向传播和反向传播修改BP神经网络的每层之间的权值,使BP神经网络输出“0”,以此来训练BP神经网络;(9)、将实时抓取的评论输入至训练好的BP神经网络,如果BP神经网络输出为“1”,则该评论为真实评论;如果BP神经网络输出为“0”,则该评论为虚假评论。本专利技术的专利技术目的是这样实现的:本专利技术一种基于向量空间模型的中文虚假评论过滤方法,通过改进版向量空间模型判断评论间的相似性,将相似性高的评论作为虚假评论的一部分。同时结合评论的情感极性与用户评分,筛选出另一部分虚假评论。并且引入一部分真实评论样本,使用这两类样本训练BP神经网络。使用训练好的网络对未标签的评论进行判断。同时,本专利技术一种基于向量空间模型的中文虚假评论过滤方法还具有以下有益效果:(1)、将正例、负例样本整合到一起来训练BP神经网络,提高了训练样本的可靠性;其次,选用BP神经网络,在于它不仅能处理特征向量相对更大的情况,也能处理训练集相对更大的情况,在局限性上更优于逻辑回归和支撑向量机。(2)、训练样本的向量化整合了结构编码,向量空间模型,情感极性,评论时间等隐藏影响因素。附图说明图1是本专利技术一种基于向量空间模型的中文虚假评论过滤方法流程图;具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。实施例图1是本专利技术一种基于向量空间模型的中文虚假评论过滤方法流程图。在本实施例中,如图1所示,本专利技术一种基于向量空间模型的中文虚假评论过滤方法,包括以下步骤S1、用Python实现网站的模拟登录,运用正则表达式抓取到每条评论的发布时间,评论的文本内容,评论发布者的昵称,id以及主页地址等;S2、根据设定的评论长度L,剔除小于L的评论;在本实施例中,设定阈值为15,剔除长度小于15的评论;S3、将评论分词处理,获得语句成分结构S3.1、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语等无意义的词汇,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值50%比较,剔除比例大于比例50%的评论;S3.2、利用中科院NLPIR中文分词java版工具对步骤S3.1中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照名词,动词,副词,形容词等词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;编码过程例如:上述例子中的第三行即为评论结构编码;S4、按用户投票有用数对步骤S3得到的评论进行排序,然后择排序前5%的评论作为真实评论,并标记为正例样本;S5、利用步骤S4中未标记的评论构建改进版向量空间模型向量空间模型(VSM:Vectorspacemodel)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,传统向量空间模型遵循以下原理:假设共有十个词:w1,w2,……,w10,而共有三个评论,分别为d1,d2和d3。统计所得的词频表如表1所示:w1w2w3w4w5w6w7w8w9w10d112579d23468d3101112131415表1常用的向量空间公式见下:其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,aik表示第k个词汇在第i条评论中出现的次数。假设计算d1和d2的相似度,那么:上面公式的计算量很大,这里为了减小计算量,采用降维的方法。采取降维的策略不仅可以提高效率,还可以提高精度。例如下面两句话:1、这是我的饭。2、那本文档来自技高网...
一种基于向量空间模型的中文虚假评论过滤方法

【技术保护点】
一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数;

【技术特征摘要】
1.一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数;n表示在整个语料中评论的总数,而表示含有当前词的评论数;(5.2)、构建改进版向量空间模型其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评...

【专利技术属性】
技术研发人员:刘珊杨波郑文锋蔡礼高
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1