The invention discloses a Chinese false review filtering method based on vector space model, and judges the similarity between commentaries through the improved version vector space model, and takes the highly similar comment as a part of the false comment. At the same time, combining the emotional polarity of the review and the user score, another part of the false comment is selected. In addition, some samples of real comments are introduced and the BP neural network is trained by these two types of samples. Use a trained network to judge unlabeled comments.
【技术实现步骤摘要】
一种基于向量空间模型的中文虚假评论过滤方法
本专利技术属于机器学习
,更为具体地讲,涉及一种基于向量空间模型的中文虚假评论过滤方法。
技术介绍
随着互联网技术的日益成熟,消费者网络点评积极性逐渐增强,网络上产生了数量庞大的评论数据。用户利用这些评论信息辅助消费决策的同时,也饱受评论质量参差不齐、信息过载等问题的困扰。网络在给消费者带来便捷体验的同时,也由于它本身的无地域限制的特点导致了消费依据匮乏、商品描述信息与实际不符等弊端。因此越来越多的消费者在消费前都不得不先去了解已购顾客对该产品的评价和态度,以便做出可靠的决策。但随着评价数量的飞速增长以及评价内容的五花八门,用户越来越难以获取有价值的评价信息。仅依靠人工方法难以从海量的评论中识别出真正对用户有价值的信息,迫切需要自动化方法辅助人们进行甄别,因而对文本内容的评价筛查有重要的研究价值。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于向量空间模型的中文虚假评论过滤方法,基于BP神经网络识别影评网站的虚假评论,以便达到为用户提供真实的消费参考。为实现上述专利技术目的,本专利技术为一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤 ...
【技术保护点】
一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数;
【技术特征摘要】
1.一种基于向量空间模型的中文虚假评论过滤方法,其特征在于,包括以下步骤(1)、模拟网站登录,抓取评论;(2)、根据设定的评论长度L,剔除于L的评论;(3)、将评论分词处理,获得语句成分结构(3.1)、先建立一个干扰词库,干扰词库中包含连接词、主语和宾语,再计算每一条评论中的干扰词比例,将得到的干扰词比例与预设的比例阈值比较,剔除比例大于比例阈值的评论;(3.2)、利用中科院NLPIR中文分词java版工具对步骤(3.1)中得到的评论进行分词处理,并删除标点符号,再将分词后的评论按照词性进行编码,建立评论结构编码库,然后查找评论结构编码库中是否有相同的编码,如果有,则将评论模板特征值加1,如果没有,则不修改;(4)、按用户投票有用数对步骤(3)得到的评论进行排序,然后选择排序前5%的评论作为真实评论,并标记为正例样本;(5)、利用步骤(4)中未标记的评论构建改进版向量空间模型(5.1)、对步骤(4)中未标记的评论进行词频TF和反词频IDF统计TF=f/m,TF值在0和1之间,f表示当前词在当前评论中出现的次数,m表示当前评论中出现次数最多的词的次数;n表示在整个语料中评论的总数,而表示含有当前词的评论数;(5.2)、构建改进版向量空间模型其中,di,dj分别表示第i条评论和第j条评论,N表示所有词汇的数目总和,wik表示第k个词汇在第i条评...
【专利技术属性】
技术研发人员:刘珊,杨波,郑文锋,蔡礼高,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。