一种数据处理方法和装置制造方法及图纸

技术编号:36163884 阅读:24 留言:0更新日期:2022-12-31 20:12
本发明专利技术公开了一种数据处理方法和装置,涉及电商及信息安全技术领域。该方法的一实施方式包括:获取数据处理请求包括的待分析指标的数据序列,数据序列包括有待分析指标的对应于多个时间点的指标数值;将数据序列划分成多个数组对,数据组由一个指标数值或者多个连续变化的时间点的指标数值构成;根据数组对具有的两个互补的数据组包括的指标数值,计算数组对的指标损失;根据多个数组对的指标损失,确定指标损失最小的目标数组对;分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为,将异常指标数值和异常行为对应推送给管理端。该实施方式有效的提高数据异常分析的准确性。数据异常分析的准确性。数据异常分析的准确性。

【技术实现步骤摘要】
一种数据处理方法和装置


[0001]本专利技术涉及电商及信息安全
,尤其涉及一种数据处理方法和装置。

技术介绍

[0002]通过对电商等零售类的企业的经营数据比如所售卖的商品的销量、进货价格、售卖价格、广告所产生的数据等进行分析,可以控制电商等零售类的企业的经营成本、发现所售卖的商品存在的销量异常问题、商家的异常行为比如刷单问题、销售欺诈、恶性竞争等。
[0003]目前,对电商等零售类的企业的经营数据的分析主要通过设置异常阈值、构建线性回归以及聚类等方式完成。但是,针对具有分段连续特点的阶梯式分布数据比如在商品更新迭代比如新款电子产品上市后,旧款商品采购价格或售卖价格会呈现断崖式或阶梯式下跌,且在一段时间内基本保持相对稳定的价格,现有的数据分析方式由于针对整体数据的分析,并不会按照阶梯式分布数据的分段特点进行分段分析,导致分析的结果误差较大,不能准确的分析出数据的异常。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种数据处理方法和装置,能够对阶梯式分布数据进行分段分析,以有效的提高数据异常分析的准确性,以准确的发现与数据异常相关的异常行为。
[0005]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种数据处理方法,包括:
[0006]接收数据处理请求,其中,所述数据处理请求包括待分析指标;
[0007]获取对应于所述待分析指标的数据序列,其中,所述数据序列包括所述待分析指标的对应于多个时间点的指标数值;
[0008]将所述数据序列包括的多个指标数值划分成多个数组对,其中,每一个所述数组对具有两个互补的数据组,每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成,两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应,且两个互补的数据组所包括的指标数值的时间点不重叠;
[0009]针对每一个所述数组对,根据所述数组对具有的两个互补的数据组所包括的指标数值,计算所述数组对的指标损失;
[0010]根据多个所述数组对的指标损失,确定指标损失最小的目标数组对;
[0011]分别确定所述目标数组对中每一个数据组的异常指标数值及对应于所述异常指标数值的异常行为;
[0012]将所述异常指标数值和所述异常行为对应推送给管理端。
[0013]可选地,所述数据处理请求还包括数据类型;
[0014]在所述数据类型满足预设的数据处理条件的情况,执行将所述数据序列包括的多个指标数值划分成多个数组对的步骤。
[0015]可选地,述将所述数据序列包括的多个指标数值划分成多个数组对,包括:
[0016]在每相邻两个时间点之间构建出初始分割点;
[0017]针对每一个所述初始分割点,将位于所述初始分割点两侧的指标数值划分到两个互补的数据组中,构成一个数组对。
[0018]可选地,所述计算所述数组对的指标损失,包括:
[0019]计算所述数组对具有的两个互补的数据组的数组均值;
[0020]针对每一个所述指标数值,计算所述指标数值相对于其所属数据组的数组均值的方差;
[0021]累加每一个所述指标数值所对应的方差,得到所述数组对的指标损失。
[0022]可选地,上述数据处理方法,还包括:
[0023]从多个所述初始分割点中筛选出对应于最小指标损失的数组对的实际分割点,并确定经过所述实际分割点的直线为所述数据序列的阶梯分割线,其中,所述阶梯分割线上的每一个点对应于所述实际分割点的时间点,且所述阶梯分割线上的各个点所对应的指标数值均不相同;
[0024]所述分别确定所述目标数组对中每一个数据组的异常指标数值,包括:
[0025]根据分布于所述阶梯分割线两侧的指标数值,分别确定分布于所述阶梯分割线两侧的异常指标数值。
[0026]可选地,所述在每相邻两个时间点之间构建出初始分割点,包括:
[0027]确定每相邻两个时间点的所述中间点为初始分割点。
[0028]可选地,所述确定异常指标数值,包括:
[0029]根据所述阶梯分割线和分布于所述阶梯分割线两侧的指标数值,在所述阶梯分割线两侧划分出异常区域;
[0030]从所述数据序列包括的多个指标数值中筛选出位于所述异常区域内的异常指标数值。
[0031]可选地,所述在所述实际分割点两侧划分出异常区域,包括:
[0032]绘制二维坐标系,其中,所述二维坐标系中的一条坐标轴对应于所述数据序列中的时间点,另一条坐标轴对应于所述待分析指标,所述阶梯分割线平行于所述另一条坐标轴;
[0033]按照分布于所述阶梯分割线两侧的指标数值的均值,在所述阶梯分割线的两侧分别绘制对应于均值的直线,并绘制连接两条所述直线的曲线;
[0034]根据绘制出的连接两条所述直线的曲线与所述实际分割线的交叉点所对应的指标数值以及预设的异常容忍度,确定所述阶梯分割线两侧的异常边界值;
[0035]根据所述异常边界值,在所述阶梯分割线的两侧分别绘制垂直于所述另一条坐标轴的异常边界曲线;
[0036]确定所述阶梯分割线的两侧中的每一侧的异常边界曲线为起点,远离该侧的对应于均值的直线的区域为该侧的异常区域。
[0037]可选地,所述数据处理请求还包括数据变更参数;
[0038]所述数据处理方法还包括:根据所述数据变更参数,将所述数据序列划分成多个数据子序列,其中,每相邻两个数据子序列中包括有多个重合的时间点和对应的指标数值;
[0039]所述将所述数据序列包括的多个指标数值划分成多个数组对,包括:将每一个所述数据子序列包括的多个指标数值划分成多个数组对。
[0040]第二方面,本专利技术实施例提供一种数据处理装置,包括:接收模块、数据分析模块以及推送模块,其中,
[0041]所述接收模块,用于接收数据处理请求,其中,所述数据处理请求包括待分析指标;
[0042]所述数据分析模块,用于获取对应于所述待分析指标的数据序列,其中,所述数据序列包括有所述待分析指标的对应于多个时间点的指标数值;将所述数据序列包括的多个指标数值划分成多个数组对,其中,每一个所述数组对具有两个互补的数据组,每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成,两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应,且两个互补的数据组所包括的指标数值的时间点不重叠;针对每一个所述数组对,根据所述数组对具有的两个互补的数据组所包括的指标数值,计算所述数组对的指标损失;根据多个所述数组对的指标损失,确定所述数据序列的阶梯分割线;根据多个所述数组对的指标损失,确定指标损失最小的目标数组对;分别确定所述目标数组对中每一个数据组的异常指标数值及对应于所述异常指标数值的异常行为;
[0043]所述推送模块,用于将所述异常指标数值和所述异常行为对应推送给管理端。
[0044]上述专利技术中的一个实施例具有如下优点或有益本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:接收数据处理请求,其中,所述数据处理请求包括待分析指标;获取对应于所述待分析指标的数据序列,其中,所述数据序列包括所述待分析指标的对应于多个时间点的指标数值;将所述数据序列包括的多个指标数值划分成多个数组对,其中,每一个所述数组对具有两个互补的数据组,每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成,两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应,且两个互补的数据组所包括的指标数值的时间点不重叠;针对每一个所述数组对,根据所述数组对具有的两个互补的数据组所包括的指标数值,计算所述数组对的指标损失;根据多个所述数组对的指标损失,确定指标损失最小的目标数组对;分别确定所述目标数组对中每一个数据组的异常指标数值及对应于所述异常指标数值的异常行为;将所述异常指标数值和所述异常行为对应推送给管理端。2.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理请求还包括数据类型;在所述数据类型满足预设的数据处理条件的情况,执行将所述数据序列包括的多个指标数值划分成多个数组对的步骤。3.根据权利要求1或2所述的数据处理方法,其特征在于,所述将所述数据序列包括的多个指标数值划分成多个数组对,包括:在每相邻两个时间点之间构建出初始分割点;针对每一个所述初始分割点,将位于所述初始分割点两侧的指标数值划分到两个互补的数据组中,构成一个数组对。4.根据权利要求1所述的数据处理方法,其特征在于,所述计算所述数组对的指标损失,包括:计算所述数组对具有的两个互补的数据组的数组均值;针对每一个所述指标数值,计算所述指标数值相对于其所属数据组的数组均值的方差;累加每一个所述指标数值所对应的方差,得到所述数组对的指标损失。5.根据权利要求3所述的数据处理方法,其特征在于,还包括:从多个所述初始分割点中筛选出对应于最小指标损失的数组对的实际分割点,并确定经过所述实际分割点的直线为所述数据序列的阶梯分割线,其中,所述阶梯分割线上的每一个点对应于所述实际分割点的时间点,且所述阶梯分割线上的各个点所对应的指标数值均不相同;所述分别确定所述目标数组对中每一个数据组的异常指标数值,包括:根据分布于所述阶梯分割线两侧的指标数值,分别确定分布于所述阶梯分割线两侧的异常指标数值。6.根据权利要求3所述的数据处理方法,其特征在于,所述在每相邻两个时间点之间构建出初始分割点,包括:
确定每相邻两个时间点的所述中间点为初始分割点。7.根据权利要求5所述的数据处理方法,其特征在于,所述确定异常指标数值,包括:根据所述阶梯分割线和分布于所述阶梯分割线两侧的指标数值,在所述阶梯分割线两侧划分出异常区域;从所述数据序列包括的多个指标数值中筛选出位于所述异常区域内的异常指标数值。8.根据权利要求7所述的数...

【专利技术属性】
技术研发人员:王中泽赵旭玲
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1