一种应用于消费平台上的虚假评论信息识别方法及装置制造方法及图纸

技术编号:14786036 阅读:33 留言:0更新日期:2017-03-11 00:04
本发明专利技术公开了一种应用于消费平台上的虚假评论信息识别方法及装置包括:从消费平台上抓取多条消费评论信息;确定群体性虚假评论人;确定每个评论人的可信度;确定每个商家的可信度;确定每条消费评论信息的独立可信度;识别虚假评论信息。本发明专利技术能够在消费平台上确定以中文撰写的多种类型的评论的可信度,并识别出虚假评论。

【技术实现步骤摘要】

本专利技术涉及电子商务领域,特别是指一种应用于消费平台上的虚假评论信息识别方法及装置
技术介绍
生活消费平台作为一种新兴的互联网服务在近几年取得了巨大的发展。某些组织或个人在利益的驱动下,利用网络信息监管的缺失,弄虚作假,制造虚假评论误导用户。因此,对生活消费平台虚假评论进行研究并加以识别成为人们关注的技术热点。评论可信度是评论人提供的信息被认可的程度。现有技术中已经具有了基于文本内容的商品评论可信度测评模型;以及一些零散的阶段性结论,如匿名评论的情感倾向会对可信度产生较大影响、体验型产品中情感倾向对可信度几乎无影响、评论与评分及评论间的一致性越高则评论可信度越高等。评论可信度受多种因素影响,研究对象及特征组合的不同会影响结论的一致性。专利技术人认为,虚假评论的特征主要从评论内容和评论人两个角度来考虑。从评论内容的角度来分析,现有技术采用的是词性和n元文法。然而,在实现本专利技术的过程中专利技术人发现,利用情感来分辨欺骗型评论的效果并不显著,因为在刻意虚构的评论中,这样的情感特征并不明显。单纯从评论的文本内容特征展开识别,对欺骗型评论的识别效果并不理想。另一方面,评论人的特征反应了评论撰写者的个人信用和行为特征,通过识别评论人的特征来识别其发表言论的特征具有实用意义。以真实数据作为基础,比较了基于评论特征和基于评论人特征的虚假评论识别效果后发现,后者的识别效果更好,因此专利技术人认为:评论人的行为特征是评论内容特征的重要补充,评论和评论人特征的抽取又和特定的领域有一定的相关性。目前,非中文虚假评论的研究涉及到了旅馆、图书、音乐、餐馆等领域,而中文数据对象主要集中在图书和数码产品领域,无法简单的将非中文虚假评论的识别方法套用在服务行业等其他消费平台领域的评论上。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种应用于消费平台上的虚假评论信息识别方法及装置,能够在消费平台上确定以中文撰写的多种类型的评论的可信度,并识别出虚假评论。基于上述目的,本专利技术实施例提供了一种应用于消费平台上的虚假评论信息识别方法。根据本专利技术实施例提供的一种应用于消费平台上的虚假评论信息识别方法包括:从消费平台上抓取多条消费评论信息;确定群体性虚假评论人;确定每个评论人的可信度;确定每个商家的可信度;确定每条消费评论信息的独立可信度;识别虚假评论信息。在一些可选实施方式中,所述每条消费评论信息包括评论人、商家、发表时间、文本内容与评分;所述确定群体性虚假评论人,为使用频繁项集挖掘方法从所有评论人中挖掘出具有群体性活动特征的频繁项集,并将所述频繁项集覆盖的评论人确定为群体性虚假评论人。在一些可选实施方式中,所述确定每个评论人的可信度包括:根据指定评论人对某一商家的评分与该商家的平均评分,确定其评论评分与商家整体评论评分间差异;根据指定评论人对某一商家的评分次数与不用次数间的评分差异,确定其对同一商家评论评分相似性;根据指定评论人是否仅针对某一商家进行评分,确定其是否为单例评论人;根据指定评论人对某一商家的评分时间与该商家的注册时间,确定其早期评论倾向;根据指定评论人是否具有虚假评论历史,确定其逻辑回归类标签;根据所述评论评分与商家整体评论评分间差异、对同一商家评论评分相似性、是否为单例评论人、早期评论倾向与逻辑回归类标签,确定该评论人的可信度;依次指定每个评论人并分别确定所述每个评论人的可信度。在一些可选实施方式中,根据所述评论评分与商家整体评论评分间差异、对同一商家评论评分相似性、是否为单例评论人、早期评论倾向与逻辑回归类标签,确定该评论人的可信度,为将所述评论评分与商家整体评论评分间差异、同一商家评论评分相似性、是否为单例评论人、早期评论倾向与逻辑回归类标签按照预先设定的影响因子进行线性叠加为唯一判断参数,并将所述唯一判断参数以映射到[0,1]区间上,以映射后的结果作为该评论人的可信度。在一些可选实施方式中,所述确定每个商家的可信度包括:根据指定商家的评论总数与其中由单例评论人发表的评论数,确定其单例评论比例;根据指定商家的评论总数与其中高峰期发表的评论数,确定其爆发评论比例;根据指定商家的评论相对于时间的发布密度,确定其密度差异系数;根据指定商家所有评论之间的差异度,确定其评分差异系数;根据指定商家的所有评分,确定其平均评分;根据指定商家是否具有虚假评论历史,确定其逻辑回归类标签;根据所述单例评论比例、爆发评论比例、密度差异系数、评分差异系数、平均评分与逻辑回归类标签,确定该商家的可信度;依次指定每个商家并分别确定所述每个商家的可信度。在一些可选实施方式中,根据所述单例评论比例、爆发评论比例、密度差异系数、评分差异系数、平均评分与逻辑回归类标签,确定该商家的可信度,为将所述单例评论比例、爆发评论比例、密度差异系数、评分差异系数、平均评分与逻辑回归类标签按照预先设定的影响因子进行线性叠加为唯一判断参数,并将所述唯一判断参数以映射到[0,1]区间上,以映射后的结果作为该商家的可信度。在一些可选实施方式中,所述确定每条消费评论信息的独立可信度包括:根据指定评论文本内容中的动词数量与标点符号数量,确定动词与标点符号的比例;根据指定评论的总体评分与其商家评论的总体评分平均分,确定评论评分与整体评分差异;根据指定评论的多个专项评分,确定专项评分的标准差。在一些可选实施方式中,所述识别虚假评论信息,为根据所述每个评论人的可信度、所述每个商家的可信度、所述每条消费评论信息文本内容中动词与标点符号的比例、所述每条消费评论评分与整体评分差异与所述每条消费评论专项评分的标准差构建逻辑回归模型,并根据所述逻辑回归模型判断每条消费评论信息是否为虚假信息。另一方面,本专利技术实施例还提供了一种应用于消费平台上的虚假评论信息识别装置。根据本专利技术实施例提供的一种应用于消费平台上的虚假评论信息识别方法应用了上述任意一项的虚假评论信息识别方法。从上面所述可以看出,本专利技术实施例提供的应用于消费平台上的虚假评论信息识别方法与装置,通过依次从消费平台上抓取多条消费评论信息、确定群体性虚假评论人、确定每个评论人的可信度、确定每个商家的可信度、确定每条消费评论信息的独立可信度、识别虚假评论信息的技术方案,能够在消费平台上确定以中文撰写的多种类型的评论的可信度,并识别出虚假评论。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的一种应用于消费平台上的虚假评论信息识别方法的第一个实施例的流程示意图;图2为本专利技术提供的一种应用于消费平台上的虚假评论信息识别方法的第二个实施例的流程示意图;图3为本专利技术提供的一种应用于消费平台上的虚假评论信息识别方法的第二个实施例在ROC空间中的TPR-FPR分界图;图4为本专利技术提供的一种应用于消费平台上的虚假评论信息识别方法的第二个实施例在ROC空间中的TPR-FPR评论人可信度模型曲线图;图5为本专利技术提供的一种应用于消费平台上的虚假评论信息识别方法的第二个实施例在ROC空间中的TPR-FPR商家可信度模型曲线图;图6为本发本文档来自技高网
...
一种应用于消费平台上的虚假评论信息识别方法及装置

【技术保护点】
一种应用于消费平台上的虚假评论信息识别方法,其特征在于,包括:从消费平台上抓取多条消费评论信息;确定群体性虚假评论人;确定每个评论人的可信度;确定每个商家的可信度;确定每条消费评论信息的独立可信度;识别虚假评论信息。

【技术特征摘要】
1.一种应用于消费平台上的虚假评论信息识别方法,其特征在于,包括:从消费平台上抓取多条消费评论信息;确定群体性虚假评论人;确定每个评论人的可信度;确定每个商家的可信度;确定每条消费评论信息的独立可信度;识别虚假评论信息。2.根据权利要求1所述的方法,其特征在于,所述每条消费评论信息包括评论人、商家、发表时间、文本内容与评分;所述确定群体性虚假评论人,为使用频繁项集挖掘方法从所有评论人中挖掘出具有群体性活动特征的频繁项集,并将所述频繁项集覆盖的评论人确定为群体性虚假评论人。3.根据权利要求2所述的方法,其特征在于,所述确定每个评论人的可信度包括:根据指定评论人对某一商家的评分与该商家的平均评分,确定其评论评分与商家整体评论评分间差异;根据指定评论人对某一商家的评分次数与不用次数间的评分差异,确定其对同一商家评论评分相似性;根据指定评论人是否仅针对某一商家进行评分,确定其是否为单例评论人;根据指定评论人对某一商家的评分时间与该商家的注册时间,确定其早期评论倾向;根据指定评论人是否具有虚假评论历史,确定其逻辑回归类标签;根据所述评论评分与商家整体评论评分间差异、对同一商家评论评分相似性、是否为单例评论人、早期评论倾向与逻辑回归类标签,确定该评论人的可信度;依次指定每个评论人并分别确定所述每个评论人的可信度。4.根据权利要求3所述的方法,其特征在于,根据所述评论评分与商家整体评论评分间差异、对同一商家评论评分相似性、是否为单例评论人、早期评论倾向与逻辑回归类标签,确定该评论人的可信度,为将所述评论评分与商家整体评论评分间差异、同一商家评论评分相似性、是否为单例评论人、早期评论倾向与逻辑回归类标签按照预先设定的影响因子进行线性叠加为唯一判断参数,并将所述唯一判断参数以映射到[0,1]区间上,以映射后的结果作为该评论人的可信度。5.根据权利要求2所述的方法,其特征在于,所述确定每个商家的可信度包括:根据指定商家的评论总数与其中由单例评论人发表的评论数,确定其单例评论比例;根据指定商家的评论总数与其中高...

【专利技术属性】
技术研发人员:李晶吴国仕姚旭邹长生
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1