基于相似度计算的垃圾评论检测方法技术

技术编号:15437416 阅读:142 留言:0更新日期:2017-05-26 03:30
本发明专利技术提供了一种基于相似度计算的垃圾评论检测方法,包括下述步骤:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商等网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论。步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取等处理,并根据产品说明书,构建产品特征词典。步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。本发明专利技术提供了一种的新的垃圾评论检测方法。

Garbage review method based on similarity computation

The invention provides a similarity based spam detection method, which comprises the following steps: Step 1: data acquisition using web crawler, crawling with the specified product related forums, electricity providers and other web pages, and then reviews data extraction from the web page, and will review the data stored in the database; step 2, false comments detection: T computation time and time to buy time, if the delivery time is T < the comments for the false comments. Repeat step 3, comments detection: word of each comment, and then calculate the similarity between the comments, when the similarity between the comments above the threshold, the comments and the similar comments is repeated comments; step 4: data processing, syntactic parsing of commentary on the emotion label and feature extraction and processing. According to the product specification, construction products feature dictionary. Step 5, irrelevant comment detection: calculates whether each review's comment target is the target product and its characteristics, and detects comments unrelated to the target product. The invention provides a new method for garbage review detection.

【技术实现步骤摘要】
基于相似度计算的垃圾评论检测方法
:本专利技术属于自然语言处理的用户评论领域,尤其涉及一种基于相似度计算的垃圾评论检测方法。
技术介绍
:随着移动互联网时代的到来和物联网的构建日趋完善,网络购物渐渐成为一种新型重要消费方式,越来越多用户生成的内容(user-generatedcontent)出现在网络应用中,大多数消费者会在购物后在电商平台发表自己的购物体会和使用心得以及对产品的看法。一方面,据美国Cone公司2011年的调查报告,64%的用户在购买行为之前会参考已有的用户评论,用户发表的评论会对潜在消费者的消费行为产生一定影响而具有商业价值;另一方面,用户的评论包含了消费者对产品各方面的评价及喜好程度等大量的信息,这些信息可以帮助企业更便捷的了解消费者喜好和消费需求、发现产品质量等问题,了解自身商品性能的优势与不足。对于电商服务平台而言,通过商品评论信息了解消费者最关注的商品特性,在商品评论系统中引导消费者更全面的评价商品,进而提高评论信息质量和网站口碑。因为同种商品消费者更倾向于光顾销量多、评论人数多、好评多的店铺,出于利益目的,商家常会雇佣水军进行虚假交易然后刷评论数量或进行满N字好评返现等活动加之评论的开放性与网民个人素质的差异性,使得电商的用户评论文本质量参差不齐。用户评论文本质量的良莠不齐对浏览评论的消费者和通过研究评论来获取产品相关信息的企业带来困扰甚至误导,同时加大了信息挖掘的成本,降低了自动挖掘工具的准确率。为了减少上述不利影响,本文针对消费者评论文本里参杂了大量无效或虚假的信息,站在产品制造设计者的角度,以发掘消费者潜在需求促进产品创新为目的,提出了一种基于相似度计算提取高质量有用评论的方法。以京东上某款手机的用户评论为例,本文构建产品特征集、运用相似度算法,将一系列无用评论、重复评论进行剔除。并运用决策树方法处理的结果与本文方法进行对比,结果显示本文所讲的方法对用户评论有更优越的筛选能力,在识别精度和准确度上比决策树方法有显著提高。
技术实现思路
:本专利技术的主要目的在于提供一种基于相似度计算的垃圾评论检测方法,是获取高质量电商平台用户评论文本的一种有效方法。一种基于相似度计算的垃圾评论检测方法,包括下述步骤:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论。步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取处理,并根据产品说明书,构建产品特征词典。步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤1中,抓取与指定产品相关的论坛、电商等网页时,计算产品名与网页标题相似度的公式为:在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤2中,将每条评论进行分词及词性分析。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤2中,计算每条评论的评论时间和客户购买商品的时间之差T,并将差值T与货物运送时间进行比较,若T<货物运送时间,则该条评论为用户还没有收到产品并使用就已发表的虚假评论。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤3中,计算每条评论与其他评论间的词形词序相似度,其计算公式为:词形相似度:其中句子A的长度为len(A),句子B的长度为len(B),SameWC(A,B)表示句子A,B中相同单词的个数。词序相似度:其中OnceWS(A,B)表示A、B中都出现且只出现一次的单词集合。Pfirst(A,B)表示OnceWS(A,B)的单词在A中的位置序号构成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按对应单词在B中的词序排列生成的向量,RevOrd(A,B)表示Psecond(A,B)各相邻分量的逆序数。句子相似度:Sim(A,B)=λ1×WordSim(A,B)+λ2×OrdSim(A,B)其中λ1,λ2是常数,并且满足λ1+λ2=1。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤4中,对已经重复检测过评论进行依存句法分析,标注词语的句法成分和其支配词。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤4中,使用情感词词典进行情感词标注。在情感词词典中,词语的情感倾向包括三类:褒义、贬义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为1,3,5,7,9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤4中,情感标注的实现利用了情感词词典和程度副词词典。在程度副词词典中,词语按照情感强度分为四类,分别为:“极其”、“很”、“较”、“稍”,对应的情感强度值为4,3,2,1。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤4中,利用CRF模型对产品特征词进行标注,得到产品特征集,其计算公式如下:式中tk和sk是特征函数,λk和μk分别表示两个特征函数的权重,Z(x)是规范化因子。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤4中,对CRF模型标记的产品特征词和产品说明书里的产品特征进行对比,对特征集进行筛选与修正,构建完整准确的产品特征集。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤5中,计算每条评论的评论目标与产品特征的距离,若一条评论与所有的产品特征的距离都大于给定阈值,则该条评论为无关评论。在上述的基于相似度计算的垃圾评论检测方法中,在所述的步骤5中,计算每条评论的评论目标词与产品特征词两个词语之间的词林相似度。词语W的语义编码为E,即为E(W)=e1,e2,e3,e4,e5,e6,ei代表词林扩展版词语编码中的类别级别。Weight(ei)表示第i级别的类别ei的权重大小。共有类别C(Ei,Ej)定义为编码Ei和Ej所拥有的共同部分的类别编码集合,其共同部分在判定时由大类开始,依次向小类判断,遇到第一个不同的子类别之前为止,其计算公式如下:附图说明:图1是本专利技术的流程图。图2是本专利技术的数据获取流程图。图3是本专利技术的产品特征词提取流程图。图4是本专利技术的依存关系分析示例图。图5是本专利技术的特征词提取的训练文本示例。具体实施方式:下面结合具体附图对本专利技术作进一步的说明。本专利技术以论坛、电商等网络平台上的用户评论为研究对象,目的是从网络评论中检测出垃圾评论,提高评论文本的质量,降低自动挖掘工具的成本。基于相似度计算的垃圾评论检测方法,包括数据获取、虚假评论检测、重复评论检测、产品特征词典构建和无关评论检测五个步骤,如图1所示。下面分别对这五个步骤进行详细的说明。1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中。数据获取的流程如图2所示。首先,调用百度搜索接口搜索指定产品,得到指定页数的搜索结果页,且每个搜索结果页包含13个搜索结果;然本文档来自技高网
...
基于相似度计算的垃圾评论检测方法

【技术保护点】
一种基于相似度计算的垃圾评论检测方法,其特征在于,包括:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论;步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取处理,并根据产品说明书,构建产品特征词典;步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。

【技术特征摘要】
1.一种基于相似度计算的垃圾评论检测方法,其特征在于,包括:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论;步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取处理,并根据产品说明书,构建产品特征词典;步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。2.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤1中,抓取与指定产品相关的论坛、电商等网页时,计算产品名与网页标题相似度的公式为:。3.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤2中,将每条评论进行分词及词性分析。4.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤2中,计算每条评论的评论时间和客户购买商品的时间之差T,并将差值T与货物运送时间进行比较,若T<货物运送时间,则该条评论为用户还没有收到产品并使用就已发表的虚假评论。5.如权利要求3所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤3中,计算每条评论与其他评论间的词形词序相似度,其计算公式为:词形相似度:其中句子A的长度为len(A),句子B的长度为len(B),SameWC(A,B)表示句子A,B中相同单词的个数。词序相似度:其中OnceWS(A,B)表示A、B中都出现且只出现一次的单词集合,Pfirst(A,B)表示OnceWS(A,B)的单词在A中的位置序号构成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按对应单词在B中的词序排列生成的向量,RevOrd(A,B)表示Psecond(A,B)各相邻分量的逆序数,句子相似...

【专利技术属性】
技术研发人员:徐新胜袁俊林静文超
申请(专利权)人:中国计量大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1