用于电子商务平台的信息智能采集处理方法技术

技术编号:39255046 阅读:9 留言:0更新日期:2023-10-30 12:06
本发明专利技术涉及电子数字数据处理技术领域,具体涉及用于电子商务平台的信息智能采集处理方法,包括:通过对同类商品的主数据进行统计分析,并对每一主数据对应的数值分布曲线进行区间划分,对每一分布区间内部的集中度进行量化后,进一步获得主数据的差异容忍度,根据由差异容忍度获得的离散差异值对LOF算法的K值进行优化调整,获得优化后的K值。本发明专利技术通过对不同商品给予不同的K值,大大降低了商品录入相关主数据后对主数据进行异常分析时的误判以及漏判的出现,提高了对商品主数据的异常识别精度,进一步提高了电子商务平台的信息分析处理的准确性,避免了电子商务平台中商品信息录入错误的情况。录入错误的情况。录入错误的情况。

【技术实现步骤摘要】
用于电子商务平台的信息智能采集处理方法


[0001]本专利技术涉及电子数字数据处理
,具体涉及用于电子商务平台的信息智能采集处理方法。

技术介绍

[0002]电子商务平台通常需要在商品进入物流仓储系统中时录入商品的相关数据,相关数据的录入对寄件物流的效率以及用户对商品信息的了解存在重要的作用。在商品入库过程中相关数据由仓库的工作人员进行采集,由于作业压力大或流程不规范的问题,会导致商品的相关数据录入错误,而当商品的相关数据录入错误时,物流工作人员需要花费大量的时间对寄件进行核实,避免出现错误配送,因此漫长的数据核实过程降低了物流运送的效率。
[0003]现有技术中对电子商务平台的商品相关数据进行处理分析通常利用LOF算法计算每一商品的局部离群因子,以直接进行商品相关数据的异常识别,但在实际情况中,商品的相关数据通常所存在的误差程度不同,且同类商品之间的数据本身也存在一定差异,因此固定的LOF算法的K值容易导致对部分误差较小的商品主数据的识别敏感度过低或过高,而造成异常数据识别错误。

技术实现思路

[0004]本专利技术提供用于电子商务平台的信息智能采集处理方法,以解决现有的问题。
[0005]本专利技术的用于电子商务平台的信息智能采集处理方法采用如下技术方案:本专利技术提供了用于电子商务平台的信息智能采集处理方法,该方法包括以下步骤:获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理;将商家的任意商品记为目标商品,将商家历史出售的商品中与目标商品的品类信息相同的商品记为目标商品的同类商品,对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间;将数值分布曲线的数据点记为曲线数据点,根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度;将目标商品的同类商品的任意主数据的数据点记为特殊数据点,将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度;根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度;利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值;利用离散差异值对预设的K值进行优化获得优化后的K值;利用优化后的K值通过LOF算法完成电子商务平台的信息智能采集处理。
[0006]进一步的,所述获取电子商务平台中任意商家的所有商品的主数据以及商品的品
类信息,对商品的主数据进行预处理,包括的具体步骤如下:首先,获得物流仓储系统中所有存储的商品的主数据,所述主数据包括商品的长度、宽度、高度、体积以及重量,则任一商品对应多个主数据,并获取商品所属的品类,将商品所属的品类记为商品的品类信息;然后,将所有商品的第个主数据的单位统一,并利用线性变换对商品的主数据进行线性缩放,将主数据的数值映射到区间,缩放后数值的精度为,其中、表示预设的超参数。
[0007]进一步的,所述对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间,包括的具体步骤如下:构建直角坐标系,以主数据的数值大小作为横坐标,以每一数值对应的数量为纵坐标,并通过最小二乘法拟合历史的所有同类商品中任意主数据对应的数据点,将拟合获得的曲线记为主数据的数值分布曲线;获取数值分布曲线中的所有极小值,获得若干个极小值,将极小值作为区间的端点,利用极小值将数值分布曲线划分为若干个区间记为分布区间。
[0008]进一步的,所述根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度,包括的具体步骤如下:获取数值分布曲线中任意分布区间内所有曲线数据点的斜率,将分布区间内所有曲线数据点的斜率绝对值的平均值记为分布区间内曲线数据点的集中度。
[0009]进一步的,所述将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,包括的具体步骤如下:获取数值分布曲线中任意分布区间内的极大值记为曲线极大值;获取分布区间内任意特殊数据点与曲线极大值之间的欧式距离记为特殊数据点的特殊距离。
[0010]进一步的,所述根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度,包括的具体步骤如下:分布区间的置信度的具体计算方法为:其中,表示同类商品的第个主数据对应数值分布曲线的第个分布区间的置信度;表示同类商品的第个主数据对应数值分布曲线的第个分布区间内特殊数据点的数量;表示同类商品的第个主数据对应数值分布曲线的第个分布区间的曲线数据点数量;表示同类商品的第个主数据对应数值分布曲线的第个分布区间内第个特殊数据点的特殊距离;表示自然常数。
[0011]进一步的,所述根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度,包括的具体步骤如下:主数据的差异容忍度的具体计算方法为:
其中,表示第个主数据的差异容忍度;表示第个主数据的数值分布曲线中第个分布区间的归一化集中度;表示第个主数据的数值分布曲线中第个分布区间的置信度;表示第个主数据的数值分布曲线中分布区间的数量。
[0012]进一步的,所述利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值,包括的具体步骤如下:利用线性归一化方法对同类商品的所有主数据的差异容忍度进行归一化处理,将归一化后的差异容忍度记为归一化差异容忍度,将1减归一化差异容忍度记为主数据的反差异容忍度,将同类商品中所有主数据的标准差记为标准特征;将同类商品中所有主数据的反差异容忍度与标准特征的乘积累加值记为离散差异值。
[0013]进一步的,所述利用离散差异值对预设的值进行优化获得优化后的值,包括的具体步骤如下:优化后的K值的具体计算方法为:其中,表示优化后的值;表示预设的超参数;表示离散差异值;表示预设的超参数;表示sigmoid归一化函数。
[0014]进一步的,所述利用优化后的值通过LOF算法完成电子商务平台的信息智能采集处理,包括的具体步骤如下:利用LOF算法的优化后的值结合LOF算法对电子商务平台的物流仓储系统中所有商品的主数据进行局部离群因子计算,获得主数据的局部离群因子,利用线性归一化方法将所有主数据的局部离群因子进行归一化处理,将局部离群因子的归一化处理结果记为归一化局部离群因子,将归一化局部离群因子大于预设的离群阈值的主数据记为异常主数据。
[0015]本专利技术的技术方案的有益效果是:通过结合电子商务平台中商家出售商品时通常选用固定的快递物流,且商家的同类商品中对应的主数据较为相近,通过对同类商品的主数据进行统计分析,并对每一主数据对应的数值分布曲线进行区间划分,对每一分布区间内部的集中度进行量化后,进一步获得主数据的差异容忍度,根据由差异容忍度获得的离散差异值对LOF算法的值进行优化调整,通过对不同商品给予不同的值,大大降低了商品录入相关主数据后对主数据进行异常分析时的误判以及漏判的出现,提高本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于电子商务平台的信息智能采集处理方法,其特征在于,该方法包括以下步骤:获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理;将商家的任意商品记为目标商品,将商家历史出售的商品中与目标商品的品类信息相同的商品记为目标商品的同类商品,对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间;将数值分布曲线的数据点记为曲线数据点,根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度;将目标商品的同类商品的任意主数据的数据点记为特殊数据点,将特殊数据点与主数据对应数值分布曲线的极大值之间的距离记为特殊距离,根据任意分布区间内特殊数据点和曲线数据点数量以及特殊距离获得分布区间的置信度;根据任意主数据对应数值分布曲线中所有分布区间的集中度以及置信度获得主数据的差异容忍度;利用差异容忍度对同类商品的任意主数据进行调节获得离散差异值;利用离散差异值对预设的值进行优化获得优化后的值;利用优化后的值通过LOF算法完成电子商务平台的信息智能采集处理。2.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述获取电子商务平台中任意商家的所有商品的主数据以及商品的品类信息,对商品的主数据进行预处理,包括的具体步骤如下:首先,获得物流仓储系统中所有存储的商品的主数据,所述主数据包括商品的长度、宽度、高度、体积以及重量,则任一商品对应多个主数据,并获取商品所属的品类,将商品所属的品类记为商品的品类信息;然后,将所有商品的第个主数据的单位统一,并利用线性变换对商品的主数据进行线性缩放,将主数据的数值映射到区间,缩放后数值的精度为,其中、表示预设的超参数。3.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述对目标商品的同类商品的任意主数据进行曲线拟合获得数值分布曲线,利用数值分布曲线中的极小值将数值分布曲线划分为若干个区间记为分布区间,包括的具体步骤如下:构建直角坐标系,以主数据的数值大小作为横坐标,以每一数值对应的数量为纵坐标,并通过最小二乘法拟合历史的所有同类商品中任意主数据对应的数据点,将拟合获得的曲线记为主数据的数值分布曲线;获取数值分布曲线中的所有极小值,获得若干个极小值,将极小值作为区间的端点,利用极小值将数值分布曲线划分为若干个区间记为分布区间。4.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述根据分布区间中曲线数据点的斜率获得分布曲线内曲线数据点集中度,包括的具体步骤如下:获取数值分布曲线中任意分布区间内所有曲线数据点的斜率,将分布区间内所有曲线数据点的斜率绝对值的平均值记为分布区间内曲线数据点的集中度。5.根据权利要求1所述用于电子商务平台的信息智能采集处理方法,其特征在于,所述将特殊数据点与主数据对应数值分布曲线的极大值...

【专利技术属性】
技术研发人员:刘辉
申请(专利权)人:贵昌集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1