The invention provides a similarity based spam detection method, which comprises the following steps: Step 1: data acquisition using web crawler, crawling with the specified product related forums, electricity providers and other web pages, and then reviews data extraction from the web page, and will review the data stored in the database; step 2, false comments detection: T computation time and time to buy time, if the delivery time is T < the comments for the false comments. Repeat step 3, comments detection: word of each comment, and then calculate the similarity between the comments, when the similarity between the comments above the threshold, the comments and the similar comments is repeated comments; step 4: data processing, syntactic parsing of commentary on the emotion label and feature extraction and processing. According to the product specification, construction products feature dictionary. Step 5, irrelevant comment detection: calculates whether each review's comment target is the target product and its characteristics, and detects comments unrelated to the target product. The invention provides a new method for garbage review detection.
【技术实现步骤摘要】
基于相似度计算的垃圾评论检测方法
:本专利技术属于自然语言处理的用户评论领域,尤其涉及一种基于相似度计算的垃圾评论检测方法。
技术介绍
:随着移动互联网时代的到来和物联网的构建日趋完善,网络购物渐渐成为一种新型重要消费方式,越来越多用户生成的内容(user-generatedcontent)出现在网络应用中,大多数消费者会在购物后在电商平台发表自己的购物体会和使用心得以及对产品的看法。一方面,据美国Cone公司2011年的调查报告,64%的用户在购买行为之前会参考已有的用户评论,用户发表的评论会对潜在消费者的消费行为产生一定影响而具有商业价值;另一方面,用户的评论包含了消费者对产品各方面的评价及喜好程度等大量的信息,这些信息可以帮助企业更便捷的了解消费者喜好和消费需求、发现产品质量等问题,了解自身商品性能的优势与不足。对于电商服务平台而言,通过商品评论信息了解消费者最关注的商品特性,在商品评论系统中引导消费者更全面的评价商品,进而提高评论信息质量和网站口碑。因为同种商品消费者更倾向于光顾销量多、评论人数多、好评多的店铺,出于利益目的,商家常会雇佣水军进行虚假交易然后刷评论数量或进行满N字好评返现等活动加之评论的开放性与网民个人素质的差异性,使得电商的用户评论文本质量参差不齐。用户评论文本质量的良莠不齐对浏览评论的消费者和通过研究评论来获取产品相关信息的企业带来困扰甚至误导,同时加大了信息挖掘的成本,降低了自动挖掘工具的准确率。为了减少上述不利影响,本文针对消费者评论文本里参杂了大量无效或虚假的信息,站在产品制造设计者的角度,以发掘消费者潜在需求促进产品创新 ...
【技术保护点】
一种基于相似度计算的垃圾评论检测方法,其特征在于,包括:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论;步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取处理,并根据产品说明书,构建产品特征词典;步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。
【技术特征摘要】
1.一种基于相似度计算的垃圾评论检测方法,其特征在于,包括:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商网页,然后抽取网页中的评论数据,并将评论数据保存到数据库中;步骤2,虚假评论检测:计算评论时间与购买时间的时间的差T,若T<货物运送时间则该条评论为虚假评论;步骤3,重复评论检测:对每条评论进行分词,然后计算评论间的相似度,当评论间的相似度高于阈值,则该评论和其相似的评论即为重复评论;步骤4,数据处理:对评论进行句法分析、情感标注、特征词提取处理,并根据产品说明书,构建产品特征词典;步骤5,无关评论检测:计算每条评论的评论目标是否为目标产品及其特征,检测出与目标产品无关的评论。2.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤1中,抓取与指定产品相关的论坛、电商等网页时,计算产品名与网页标题相似度的公式为:。3.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤2中,将每条评论进行分词及词性分析。4.如权利要求1所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤2中,计算每条评论的评论时间和客户购买商品的时间之差T,并将差值T与货物运送时间进行比较,若T<货物运送时间,则该条评论为用户还没有收到产品并使用就已发表的虚假评论。5.如权利要求3所述的基于相似度计算的垃圾评论检测方法,其特征在于:在步骤3中,计算每条评论与其他评论间的词形词序相似度,其计算公式为:词形相似度:其中句子A的长度为len(A),句子B的长度为len(B),SameWC(A,B)表示句子A,B中相同单词的个数。词序相似度:其中OnceWS(A,B)表示A、B中都出现且只出现一次的单词集合,Pfirst(A,B)表示OnceWS(A,B)的单词在A中的位置序号构成的向量,Psecond(A,B)表示Pfirst(A,B)中的分量按对应单词在B中的词序排列生成的向量,RevOrd(A,B)表示Psecond(A,B)各相邻分量的逆序数,句子相似...
【专利技术属性】
技术研发人员:徐新胜,袁俊,林静,文超,
申请(专利权)人:中国计量大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。