基于电商运营数据识别刷单店铺的预警方法及系统技术方案

技术编号:30049521 阅读:20 留言:0更新日期:2021-09-15 10:51
本发明专利技术公开了一种基于电商运营数据识别刷单店铺的预警方法及系统,属于电商平台信息技术领域,本发明专利技术要解决的技术问题为如何及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单行为,降低消费者的交易风险,采用的技术方案为:该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;建立店铺刷单预警模型。建立店铺刷单预警模型。建立店铺刷单预警模型。

【技术实现步骤摘要】
基于电商运营数据识别刷单店铺的预警方法及系统


[0001]本专利技术涉及电商平台信息
,具体地说是一种基于电商运营数据识别刷单店铺的预警方法及系统。

技术介绍

[0002]电商与人们的生活密切相关,为了节省购物时间和人力成本,以及得到其它消费者的评价参考,越来越多的消费者选择在电商平台内购物。在商品搜索列表页中,平台通常会按照销量降序排列来向消费者展示商品,这是一种非常合理的做法,因为受到更多消费者青睐的商品可能在品质、价格等方面都比较有优势。与此同时,这种按照销量降序推荐的方法也让很多店铺经营者看到了“作弊”的可能性——刷单。为了更好的吸引顾客,部分卖家会通过刷单来提高自己网店的销量和排名,使得部分网购经验不丰富的消费者掉入销量陷阱,造成不好的购物体验,损害了消费者的合法权益。因此如果消费者能提前知道店铺是否存在刷单行为,进而在购物时提高警惕是非常必要的。电子商务经营者应当全面、真实、准确、及时地披露商品或者服务信息,不得以虚构交易、编造用户评价等方式进行虚假或者引人误解的商业宣传,欺骗、误导消费者。也就是说,卖家应展示商品的真实销量、商品评价等信息,刷单是一种违法行为。
[0003]网络购物正凭借其方便快捷、选择性多等特点被越来越多人所接受,足不出户便可享受到购物的乐趣。然而网络购物中存在着很多陷阱,消费者稍不注意就可能导致自身权益受到损害。比如说,当消费者使用搜索功能查找商品时,在搜索列表页,平台默认的排序规则是按照商品相关度和商品销量降序排列,假如有两家店铺同时经营同种类型的商品,那么此时销量高的店铺的商品将排在更前面的位置,更容易被消费者看到。由于这种排序规则的存在,许多卖家会通过人为的刷单将自己店铺中商品的销量提高使其排在搜索列表页的前面,如果该店的商品质量不过关或者存在其它任何问题,许多缺乏经验的消费者就会以错误的排名做参考,购买到名不副实的商品。当前的技术,主要集中在依据评价对消费者推荐店铺层面,缺乏对经营者的关注。
[0004]综上所述,如何及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单行为,降低消费者的交易风险是目前亟待解决的技术问题。

技术实现思路

[0005]本专利技术的技术任务是提供一种基于电商运营数据识别刷单店铺的预警方法及系统,来解决如何及时向消费者提醒店铺经营者是否对店铺内商品进行了刷单行为,降低消费者的交易风险的问题。
[0006]本专利技术的技术任务是按以下方式实现的,一种基于电商运营数据识别刷单店铺的预警方法,该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:
[0007]信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
[0008]筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
[0009]建立店铺刷单预警模型(随机森林分类模型):通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考。
[0010]作为优选,信息爬取具体如下:
[0011]利用爬虫技术,获取既定周期内电商平台的商品经营数据;其中,商品经营数据包括商品id、商品名称、商品销量及商品销售额;
[0012]利用爬虫技术获取到商品与店铺的唯一对应关系以及单个商品销量与店铺内最高销量的比值,并存储到数据库中。
[0013]作为优选,筛选店铺具体如下:
[0014]利用分布式数据处理和过滤技术,将所有可能存在刷单行为的商品提取出来;
[0015]通过商品和店铺的对应关系得到所有可能存在刷单行为的店铺,将店铺信息存储到数据库中。
[0016]更优地,筛选店铺过程中排除如下两个情况:
[0017](1)、排除零部件和/或材料批发店铺:某些小零件,比如螺母、轴承等通常都由工厂批发,且容易与其他零部件捆绑购买,造成销量过高以及销量极其近似的情况,其他材料商品比如塑料、纸板等会出现相同情况,因此将这类店铺排除在外;
[0018](2)、排除低销量店铺:月度总销量低于5000的店铺不予以考虑:排除零部件/材料批发店铺是因为该类店铺在不刷单的情况下依然可能造成销量过高以及销量极其近似的情况,我们不必过多关注;排除低销量店铺是因为通常店铺刷单的数量都会大于10000件,月度总销量小于5000的店铺我们默认不存在刷单情况;销量相似的商品数越多的店铺存在刷单行为的风险越大,消费者需要多加关注,对于实在难以通过现有数据判断是否刷单的店铺,需结合阿里妈妈接口返回的真实成交量来进行判断。
[0019]作为优选,建立店铺刷单预警模型具体如下:
[0020]数据集预处理;
[0021]构建店铺刷单预警模型;
[0022]数据分割及店铺刷单预警模型调优。
[0023]更优地,数据集预处理具体如下:
[0024]去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段;
[0025]对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;
[0026]使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量。
[0027]更优地,店铺刷单预警模型构建过程中采用随机森林来进行分类及预测任务,具体如下:
[0028]采用放回抽样的方式从数据集中抽取独立的店铺top商品数据;
[0029]随机从所有维度中抽取几个店铺top商品数据完成数据的自身构建。
[0030]更优地,数据分割及店铺刷单预警模型调优具体如下:
[0031]随机选择n个属性进行学习,使得OOBerror最小的属性个数n,在保证每个数据的OOBerror最小的同时,使得整个数据集的误差最小;其中,在放回抽样过程中未被抽取的数据称为袋外数据;使用袋外数据实时监测对应店铺top数据的误差,即OutOfBagError袋外误差,简称为OOBerror;
[0032]确定数据的数量m,确保数量m确定后,OOBerror不会再降低;
[0033]确定好参数m后,对随机森林进行训练,获取训练结果。
[0034]一种基于电商运营数据识别刷单店铺的预警系统,该系统包括,
[0035]爬取单元,用于通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;
[0036]筛选单元,用于通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;
[0037]模型建立单元,用于通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考;模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于电商运营数据识别刷单店铺的预警方法,其特征在于,该方法是通过采集电子商务平台的商品及店铺的综合信息,通过对店铺top商品进行集中分析,识别页面展示的商品销量是否为真实销量,并根据识别结果进行刷单预警;具体如下:信息爬取:通过对主流电商平台的店铺及商品信息进行爬取,获取店铺唯一标识id、商品id及商品销量的信息;筛选店铺:通过制定的筛选规则,并借助数据库工具缩小刷单店铺的检查范围;建立店铺刷单预警模型:通过建立店铺刷单预警模型对检查范围内店铺中的高销量商品进行判定,输出对应店铺的高销量商品是否为刷单商品以及对应店铺是否为刷单店铺,并将结果提供给消费者参考。2.根据权利要求1所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,信息爬取具体如下:利用爬虫技术,获取既定周期内电商平台的商品经营数据;其中,商品经营数据包括商品id、商品名称、商品销量及商品销售额;利用爬虫技术获取到商品与店铺的唯一对应关系以及单个商品销量与店铺内最高销量的比值,并存储到数据库中。3.根据权利要求1所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,筛选店铺具体如下:利用分布式数据处理和过滤技术,将所有可能存在刷单行为的商品提取出来;通过商品和店铺的对应关系得到所有可能存在刷单行为的店铺,将店铺信息存储到数据库中。4.根据权利要求3所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,筛选店铺过程中排除如下两个情况:(1)、排除零部件和/或材料批发店铺;(2)、排除低销量店铺:月度总销量低于5000的店铺不予以考虑。5.根据权利要求1所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,建立店铺刷单预警模型具体如下:数据集预处理;构建店铺刷单预警模型;数据分割及店铺刷单预警模型调优。6.根据权利要求5所述的基于电商运营数据识别刷单店铺的预警方法,其特征在于,数据集预处理具体如下:去除掉数据集中的索引维度,即暂时去掉user_id字段、shop_name字段及shop_url字段;对数据集存在的空值进行补充:出现空值的字段由开店时长、店铺三项评分以及使用字段平均值对空值进行补充;使用哑变量对数据集中存在非数值型的字段进行转换,将数据集中非数值型变量转换为数值型变量。7.根据权利要求5所述的基于电商运营数据识别...

【专利技术属性】
技术研发人员:贾晓萌谢传家姚民伟
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1