当前位置: 首页 > 专利查询>南京大学专利>正文

基于统计学与机器学习相结合的异常商品信息识别方法技术

技术编号:35349609 阅读:22 留言:0更新日期:2022-10-26 12:16
本发明专利技术公开了一种基于统计学与机器学习相结合的异常商品信息识别方法,包括如下步骤:用户通过系统接口提交电商平台商品数据文件;完成对商品文件数据的预处理工作;筛选关键词等商品信息;建立统计学模型,处理识别商品异常数据;建立回归预测模型,处理识别商品异常数据;建立分类器预测模型,处理识别商品异常数据;每一个模型筛选结果得出后,对其中的特殊商品进行筛除;根据筛出特殊商品后的各模型结果,对所有模型的筛选结果进行整合,得出筛选的最终结果;筛选结果进行输出。本发明专利技术可解决现有电商平台异常商品信息识别方法工作量大、效率低,且依赖人工的问题。且依赖人工的问题。且依赖人工的问题。

【技术实现步骤摘要】
基于统计学与机器学习相结合的异常商品信息识别方法


[0001]本专利技术涉及互联网下的电子商务领域,尤其涉及一种基于统计学与机器学习相结合的异常商品信息识别方法。

技术介绍

[0002]近年来,互联网技术发展迅速,电子商务行业也踏上了发展的快车道。“网购”因其方便快捷、省时省力、送货上门的特点越来越受到人们的青睐。在各平台规模不断扩大、商品数不断增加的同时,一些不正当经营行为,例如虚标价格、恶意刷单行为也随之出现,严重违反了电商法。
[0003]为了规范引导电子商务发展,我们也出台了多项相应法律法规,如电子商务法等。
[0004]人工检查筛选作为一项传统技术,在应用到数据量如此庞大的网络零售商品平台的商品交易时,面临着诸多问题。例如,人工筛选工作量巨大,速度慢,效率低;人工筛选每个人的标准难以统一,对于一项数据是否是异常面临着无法判断的问题;人工筛选需要极高的精力集中,并且容易受到精神状态的影响,因此难免会出现遗漏和错误的情况。
[0005]因此,实现一套智能高效识别海量网售异常商品的自动化软件系统,不仅是网售平台公平有序的有力保证,更是对于国家规划的积极响应。
[0006]综合以上信息,需要设计一种智能化的方法,在海量商品数据中寻找异常商品数据。

技术实现思路

[0007]专利技术目的:针对上述现有技术存在的问题和不足,本专利技术的目的是提供一种基于统计学与机器学习相结合的异常商品信息识别方法,解决现有方法在处理大量商品数据时效率低、速度慢以及依赖人工的问题。
>[0008]技术方案:为实现上述专利技术目的,本专利技术提出了一种基于统计学与机器学习相结合的异常商品信息识别方法,包括如下步骤:
[0009](1)用户通过系统接口提交电商平台商品数据文件,所述电商平台商品数据文件包括商品名称、商品价格、商品销量、1级类目名称、2级类目名称以及3级类目名称信息,作为步骤(2)的输入;
[0010](2)预处理所述电商平台商品数据文件数据:将输入的电商平台商品数据文件的编码方式转换为可供系统使用的utf

8的编码方式,扫描商品数据,当读入空缺或乱码数据时,作为无效数据删除,并将删除无效数据后的商品数据按照标准进行划分处理,划分成多个文件,作为输出文件输入到步骤(3)(4)(5)(6);
[0011](3)对于所述输出文件的商品数据进行关键信息筛选:利用构建的异常关键词库对商品数据匹配识别,判断商品数据是否异常,获得经过关键词筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第一输入;
[0012](4)建立统计学模型,处理识别商品异常数据:对同类目下的商品,基于统计学
3sigma法则以及箱线图模型,构建模型识别筛选离群异常值,获得经过统计学模型筛选的异常商品数据,将所述异常商品数据作为步骤 (7)的第二输入;
[0013](5)建立回归预测模型,处理识别商品异常数据:基于线性回归模型,综合商品的多个属性权重预测同类目下所有商品的价格,得到同一类目下商品的预测价格,根据实际价格与预测价格的偏移量判断异常,获得经过回归预测模型筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第三输入;
[0014](6)建立分类器预测模型,处理识别商品异常数据:基于逻辑回归模型、支持向量机模型,综合包括价格、品牌名称、名称中关键词以及销量特征,构建一个判断异常的二分类分类器,对商品数据识别异常,获得经过二分类分类器筛选的异常商品数据,将所述异常商品数据作为步骤(7) 的第四输入;
[0015](7)对所述异常商品数据中的特殊商品进行筛除:对于所述第一输入、第二输入、第三输入和第四输入,对价格异常判断中误判的奢侈品进行筛除,根据筛出特殊商品后的各模型结果,对所有模型的筛选结果进行整合,得出筛选的最终结果。
[0016]进一步地,所述步骤(2)中,将商品数据的前两级类目拼接作为划分的类名,并统计所有的类名,然后为每个商品目录创建输出文件,以类名对文件进行命名。
[0017]进一步地,所述步骤(3)中,关键信息筛选包括以下两种方法:查看商品名称是否包含必须关键词,如果不包含,则将商品数据判断为异常并输出;查看商品名称是否包含禁止关键词,如果包含,则将商品数据判断为异常并输出。
[0018]进一步地,所述步骤(4)中,对于3sigma法则处理,由用户输入设定标准差的缩放系数;对于箱线图模型,由用户输入设定四分位距(IQR)的缩放系数。
[0019]进一步地,所述步骤(5)中,实现回归预测模型时,从数据中获取能够直接处理的属性,使用独热编码(one

hot编码)方式进行编码;逐个读取商品名称,并将所述商品名称按照词语进行拆分,统计其中的词频,截取高频词的一部分,将其是否还有所述高频词作为特征(包含为1,不包含为0);采用线性回归模型(LinearRegression)对样本进行拟合;采用线性回归模型对商品价格进行预测,将预测价格和实际价格进行比较,将价格异常的商品输出。
[0020]进一步地,所述步骤(6)中,选用特征时将数值特征进行归一化,非数值特征使用one

hot编码处理;逐个读取商品名称,并将所述商品名称按照词语进行拆分,统计其中词频;截取高频词的一部分,加入高频词词库,将商品名称是否含有所述高频词词库中词频作为特征;人工筛选部分异常数据,作为训练集训练模型;使用基于python语言的机器学习库(sklearn) 中特征筛选(SelectFromModel)方法筛选所有特征得到其中的重要特征;采用逻辑回归模型和支持向量机模型构建的二分类分类器对所述重要特征和商品价格进行拟合。根据拟合值判断商品是否异常,输出1为异常,0则正常。
[0021]进一步地,所述步骤(7)中,通过对所述步骤(3)(4)(5)(6)中的相应方法进行测试,根据测试结果给每种方法设置一个重要程度;通过以下公式:
[0022]score=∑x
i
p
i
[0023]计算每个商品的异常得分:其中x
i
是其是否在第i种方法异常的指示变量,p
i
为第i种方法的异常程度,i为所述步骤(3)(4)(5)(6)中的相应方法;将得分超过设置临界值的商品判断为异常,作为最终的结果输出。
[0024]有益效果:本专利技术能够在机器学习场景下,通过一种基于统计学与机器学习相结合的异常商品信息识别方法,有效解决人工筛选效率低、易出错、标准不统一的问题:第一,本专利技术提供了一套电商平台异常商品信息的识别方法,无需人工筛选,可通过系统模型自动识别。第二,本专利技术实现了多种模型整合方法,支持自适应模型对异常商品信息进行识别,识别准确率高。
附图说明
[0025]图1为本专利技术的总体流程示意图;
[0026]图2为本专利技术在电商平台2021年6月商品信息数据集上,其中图2(a)(b) (c)分别为本专利技术统计预测模型筛选效果实例,回本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于统计学与机器学习相结合的异常商品信息识别方法,包括以下步骤:(1)用户通过系统接口提交电商平台商品数据文件,所述电商平台商品数据文件包括商品名称、商品价格、商品销量、1级类目名称、2级类目名称以及3级类目名称信息,作为步骤(2)的输入;(2)预处理所述电商平台商品数据文件:将输入的电商平台商品数据文件的编码方式转换为可供系统使用的utf

8的编码方式,扫描商品数据,当读入空缺或乱码数据时,作为无效数据删除,并将删除无效数据后的商品数据按照标准进行划分处理,划分成多个文件,作为输出文件输入到步骤(3)(4)(5)(6);(3)对于所述输出文件的商品数据进行关键信息筛选:利用构建的异常关键词库对商品数据匹配识别,判断商品数据是否异常,获得经过关键词筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第一输入;(4)建立统计学模型,处理识别商品异常数据:对同类目下的商品,基于统计学3sigma法则以及箱线图模型,构建模型识别筛选离群异常值,获得经过统计学模型筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第二输入;(5)建立回归预测模型,处理识别商品异常数据;基于线性回归模型,综合商品的多个属性权重预测同类目下商品的价格,得到同类目下商品的预测价格,根据实际价格与预测价格的偏移量判断异常,获得经过回归预测模型筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第三输入;(6)建立分类器预测模型,处理识别商品异常数据:基于逻辑回归模型、支持向量机模型,综合包括价格、品牌名称、名称中关键词以及销量特征,构建一个判断异常的二分类分类器,对商品数据识别异常,获得经过二分类分类器筛选的异常商品数据,将所述异常商品数据作为步骤(7)的第四输入;(7)对所述异常商品数据中的特殊商品进行筛除:对于所述第一输入、第二输入、第三输入和第四输入,对价格异常判断中误判的奢侈品进行筛除,根据筛除特殊商品后的各模型结果,对所有模型的筛选结果进行整合,得出筛除的最终结果。2.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法,其特征在于:所述步骤(2)中,将商品数据的前两级类目拼接作为划分的类名,并统计所有的类名,然后为每个商品目录创建输出文件,以类名对文件进行命名。3.根据权利要求1所述一种基于统计学与机器学习相结合的异常商品信息识别方法,其特征在于:所述步骤(3)中,关键信息筛选包括...

【专利技术属性】
技术研发人员:顾荣杨士宇汤博文李萌
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1