当前位置: 首页 > 专利查询>浙江大学专利>正文

基于评论数据的跨平台电商欺诈检测方法和系统技术方案

技术编号:20025844 阅读:33 留言:0更新日期:2019-01-06 04:41
本发明专利技术公开了一种基于评论数据的跨平台电商欺诈行为检测方法,包括以下步骤:从相关电商网站获取商品的评论数据,并对所述的评论数据对应的商品属性进行人工标注,并从中提取单词级别特征、评论语义特征和评论结构特征,构建训练集;以提取的特征为输入,利用训练集训练二元分类器;从相关电商网站获取目标商品的评论数据,提取目标商品的特征,输入到训练好的二元分类器对目标商品的属性进行识别。本发明专利技术还公开了跨平台电商欺诈行为检测系统。本发明专利技术的检测方法从电商评论的词汇、语义和结构这三个方面提取平台无关的商品特征,基于这些特征来判别商品是否存在欺诈嫌疑,检测结果比较准确。

【技术实现步骤摘要】
基于评论数据的跨平台电商欺诈检测方法和系统
本专利技术涉及电商大数据挖掘
,尤其涉及一种基于评论数据的跨平台电商欺诈行为检测方法和系统。
技术介绍
如今,电商已经成为消费者和工厂、零售商之间的高效纽带,为消费者提供一个快速、便捷和可靠的购物环境。电商的众多优势导致了越来越多消费者倾向于线上购物,使得电商蓬勃发展,电商零售额也随之快速增长,这给工厂、零售商和电商服务商带来了巨大的经济收益。例如,阿里巴巴年报显示,其电商平台淘宝网2017年交易总额达到22020亿人民币;亚马逊年报显示,其电商平台2016年的交易总额达到9700亿人民币;易贝年报显示,其电商平台2016年交易总额达到6580亿人民币。自然的,电商在取得巨大经济效益的同时也带来了一些安全问题。例如,为了取得更高的经济收益,一些恶意的第三方零售商会采用灰色的手段来推广他们的商品。在实际的购物场景中,消费者倾向于购买一些销量高、评分高或者好评多的商品。因此,一些恶意的第三方零售商通过虚假购买、虚假评价、虚假评论等手段来推广他们的商品,以获取更高的经济收益,这些非法的推广行为称为电商欺诈。据相关报道,电商欺诈现象普遍存在于各类大规模电商平台中,如亚马网、淘宝网、京东商城等。电商欺诈会破坏健康的电商环境,造成不公平的商业竞争,例如电商欺诈给消费者提供了一些不准确的购物信息,诱导消费者进行消费。理解和检测电商欺诈,尤其是欺诈商品,对于学术界和工业界而言,仍然是一个挑战。对于电商服务商而言,他们在某种程度上受到了隐私保护和伦理问题的限制,无法很好地检测欺诈商品。即使某些电商服务商愿意主动地、负责任去维护良性的电商环境,电商服务商之间的相互竞争导致这些服务商无法相互合作,难以检测电商平台外部的欺诈商品。当电商内部数据(如,用户点击数据和用户-商品关联图)不可得的时候,探索欺诈检测变得更为困难。因此,学术界一些现存的方法都不能直接应用到电商欺诈检测中。例如,当内部点击数据不可得时候,基于用户点击的恶意点击检测方法无法直接用于电商欺诈检测。第三方、跨平台的电商欺诈检测系统可以快速地、公正、有效地检测电商欺诈,它不会偏袒任何一个电商平台并可以扩展和应用于不同平台的电商欺诈检测,是一种基于电商公开数据的欺诈检测方案,可以直接抵抗电商灰黑产。到目前为止,仅有极为少数的工作从第三方、跨平台的角度理解和检测电商欺诈。
技术实现思路
本专利技术提供了一种基于评论数据的跨平台电商欺诈行为检测方法,该跨平台电商欺诈行为检测方法可以利用电商的评论数据,实现多类电商平台中的欺诈商品自动化监测。本专利技术提供了如下技术方案:一种基于评论数据的跨平台电商欺诈行为检测方法,包括以下步骤:(1)从相关电商网站获取商品的评论数据,并对所述的评论数据对应的商品属性进行人工标注;(2)对评论数据进行预处理,并从中提取单词级别特征、评论语义特征和评论结构特征,构建训练集;(3)以单词级别特征、评论语义特征和评论结构特征为输入,利用训练集训练二元分类器;(4)从相关电商网站获取目标商品的评论数据,提取目标商品评论数据的单词级别特征、评论语义特征和评论结构特征,输入到训练好的二元分类器对目标商品的属性进行识别。所述的商品属性为正常商品和欺诈商品。欺诈商品是指销售商通过虚假购买、虚假评价、虚假评论等手段来推广该商品,以获取更高的经济收益。步骤(1)中,从相关电商网站获取商品的评论数据后,先剔除无用评论数据。若一个商品下的评论数量少于5条或者该商品下所有评论中没有积极词,则该商品下的所有评论为无用评论数据。剔除无用评论数据可以减少干扰,使得训练的模型识别更准确。步骤(2)中,所述的预处理包括对所述的评论数据进行分词和词性标注。步骤(2)中,所述的单词级别特征包括平均积极词数量、平均消极词数量、平均高频n-gram词组含量和平均高频n-gram词组比例。所述的平均积极词数量是指一个商品下所有评论中每条评论含有积极词的平均数量;所述的平均消极词数量是指一个商品下所有评论中每条评论含有消极词的平均数量。平均积极词数量和平均消极词数量的提取方法,包括:(a1)采用爬取的评论数据训练一个word2vec模型;(a2)采用训练好的的word2vec模型从评论数据中寻找与积极种子词相似的词语,构建积极词库;采用训练好的的word2vec模型从评论数据中寻找与消极种子词相似的词语,构建消极词库;(a3)统计所述的评论数据中积极词和消极词的数量,计算平均积极词数量和平均消极词数量。n-gram词组指是连续n个单词的组成的序列,高频n-gram词组指该n-gram词组中含有至少一个高频率词语(例如含有一个出现概率为前1%的词语)。平均高频n-gram词组含量是指一个商品中所有评论中含高频n-gram词组的总和。平均高频n-gram词组比例是指一个商品中所有评论中含高频n-gram词组的总数和该商品评论中含有的n-gram词组数量的比例。采用现有技术提取一个商品中每条评论中高频n-gram词组的数量,计算可得到平均高频n-gram词组含量和平均高频n-gram词组比例。步骤(2)中,所述的评论语义特征包括平均评论情感特征;所述平均评论情感特征的提取方法包括:(b1)利用情感模型计算商品下每一条评论的情感值;(b2)对该商品下所有评论的情感值取平均数,得到平均评论情感特征。若一条评论的情感值接近1,表示该条评论的情感很积极;相反的,若一条评论的情感值接近0,则表示该条评论的情感很消极。步骤(2)中,所述的评论结构特征包括:平均标点数量、标点总量、平均评论熵、平均评论长度和评论总长度。所述的标点总量是指一个商品下所有评论中所含有的标点符号的数量总和;所述的平均标点数量是指一个商品下所有评论中平均每条评论所含有的标点符号的数量。采用现有技术统计单个商品所有评论的标点符号的数量作为标点总量,计算单个商品评论的标点总量和商品评论数量的商作为平均标点数量。熵是度量事物混乱程度的量。平均评论熵是指一个商品下所有评论中每条评论的熵的平均值。采用现有技术计算单个商品评论中单词概率熵的平均值作为平均评论熵。评论总长度是指一个商品下所有评论长度(评论长度以字符个数计算)的总和;平均评论长度是指一个商品下所有评论中每条评论的评论长度的平均值。采用现有技术统计单个商品中所有评论中中文字符的数量作为评论总长度,该总长度除以评论的数量的商值作为平均评论长度。步骤(3)中,所述的二元分类器为Xgboost分类器。Xgboost分类器具有较好的分类效果。本专利技术还公开了实现上述检测方法所采用的检测系统,包括:数据收集模块,从相关电商网站获取商品的评论数据;语义分析模块,深度分析所述评论数据的语义信息;特征提取模块,利用评论数据的语义信息,提取评论数据的单词级别特征、评论语义特征和评论结构特征;欺诈检测模块,基于评论数据的单词级别特征、评论语义特征和评论结构特征,利用二元分类器判别该商品是否属于欺诈商品。与现有技术相比,本专利技术的有益效果为:本专利技术的检测方法从电商评论的词汇、语义和结构这三个方面提取平台无关的商品特征,基于这些特征来判别商品是否存在欺诈嫌疑,检测结果比较准确,可帮助消费者、电商平台服务提供商以及网络监管部门有效判别欺诈商品。本专利技术的检测方法不本文档来自技高网
...

【技术保护点】
1.一种基于评论数据的跨平台电商欺诈行为检测方法,其特征在于,包括以下步骤:(1)从相关电商网站获取商品的评论数据,并对所述的评论数据对应的商品属性进行人工标注;(2)对评论数据进行预处理,并从中提取单词级别特征、评论语义特征和评论结构特征,构建训练集;(3)以单词级别特征、评论语义特征和评论结构特征为输入,利用训练集训练二元分类器;(4)从相关电商网站获取目标商品的评论数据,提取目标商品评论数据的单词级别特征、评论语义特征和评论结构特征,输入到训练好的二元分类器对目标商品的属性进行识别。

【技术特征摘要】
1.一种基于评论数据的跨平台电商欺诈行为检测方法,其特征在于,包括以下步骤:(1)从相关电商网站获取商品的评论数据,并对所述的评论数据对应的商品属性进行人工标注;(2)对评论数据进行预处理,并从中提取单词级别特征、评论语义特征和评论结构特征,构建训练集;(3)以单词级别特征、评论语义特征和评论结构特征为输入,利用训练集训练二元分类器;(4)从相关电商网站获取目标商品的评论数据,提取目标商品评论数据的单词级别特征、评论语义特征和评论结构特征,输入到训练好的二元分类器对目标商品的属性进行识别。2.根据权利要求1所述的跨平台电商欺诈行为检测方法,其特征在于,步骤(2)中,所述的单词级别特征包括平均积极词数量、平均消极词数量、平均高频n-gram词组含量和平均高频n-gram词组比例。3.根据权利要求2所述的跨平台电商欺诈行为检测方法,其特征在于,平均积极词数量和平均消极词数量的提取方法,包括:(a1)采用爬取的评论数据训练一个word2vec模型;(a2)采用训练好的word2vec模型从评论数据中寻找与积极种子词相似的词语,构建积极词库;采用训练好的的...

【专利技术属性】
技术研发人员:纪守领翁海琴段辅正陈建海何钦铭
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1