一种检测阈值计算方法、装置、存储介质及电子设备制造方法及图纸

技术编号:36912626 阅读:14 留言:0更新日期:2023-03-18 09:30
本申请提供一种检测阈值计算方法、装置、存储介质及电子设备,涉及数据处理领域,其中方法包括:基于离散程度过滤掉原始数据中的异常数据,得到正常数据;将正常数据输入核密度估计模型,得到概率密度函数;基于概率密度函数与预设的异常概率得到检测阈值。通过计算离散程度过滤掉原始数据中的异常数据,减小与正常数据偏离较大的异常数据对于检测阈值计算的干扰,使用核密度估计模型得到正常数据对应的概率密度函数,进而基于该概率密度函数以及预设的异常概率计算得到检测阈值,能够根据一个统一的异常概率对不同类型的用户行为数据计算出合理的检测阈值,降低人工计算的成本。降低人工计算的成本。降低人工计算的成本。

【技术实现步骤摘要】
一种检测阈值计算方法、装置、存储介质及电子设备


[0001]本申请涉及数据处理领域,具体涉及一种检测阈值计算方法、装置、存储介质及电子设备。

技术介绍

[0002]在用户实体行为分析等领域,较为常见的场景为对用户行为统计数据设定合理阈值,当真实数据高于或低于该阈值则表示出现了异常。
[0003]现有的计算检测阈值的方法中,由于用户行为数据的数量众多,且用户对应的历史数据中都存在不同程度的体现用户异常行为的数据,要想精准地从历史数据中计算合理的检测阈值是比较困难的,需要根据不同用户数据手动设置不同的异常概率,导致需要的人工计算成本较大。

技术实现思路

[0004]本申请提供一种检测阈值计算方法、装置、存储介质及电子设备,通过离散程度过滤掉原始数据中的异常数据,得到正常数据,再基于核密度估计算法拟合出正常数据对应的概率密度函数,设定统一的异常概率计算得到检测阈值,能在保证检测阈值准确度的同时降低人工计算的成本。
[0005]第一方面,本申请提供了一种检测阈值计算方法,所述方法包括:基于离散程度过滤掉原始数据中的异常数据,得到正常数据;将所述正常数据输入核密度估计模型,得到概率密度函数;基于所述概率密度函数与预设的异常概率得到检测阈值。
[0006]通过采用上述技术方案,通过计算离散程度过滤掉原始数据中的异常数据,减小与正常数据偏离较大的异常数据对于检测阈值计算的干扰,使用核密度估计模型得到正常数据对应的概率密度函数,进而基于该概率密度函数以及预设的异常概率计算得到检测阈值,能够根据一个统一的异常概率对不同类型的用户行为数据计算出合理的检测阈值,降低人工计算的成本。
[0007]可选的,所述基于离散程度过滤掉原始数据中的异常数据,得到正常数据,包括:将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据,所述第一异常数据为所述原始数据中大于等于所述第一切分点的数据,所述第一正常数据为所述原始数据中小于所述第一切分点的数据;判断所述最大梯度是否小于第一阈值;若所述第一切分点处的梯度小于第一阈值,则将所述第一正常数据确定为所述正
常数据。
[0008]通过采用上述技术方案,以原始数据中的每个数据作为切分点,分别求取每个切分点对应的离散程度之和,对每个切分点对应的离散程度之和进行拟合得到散度分布图,并确定散度分布图中最大梯度对应的切分点为第一切分点,实现对正常数据与异常数据的准确切分。
[0009]可选的,所述判断所述最大梯度是否小于第一阈值之后,还包括:若所述最大梯度大于等于第一阈值,则将所述第一正常数据作为原始数据,重复执行上述将原始数据按从小到大的顺序排列,分别将所述原始数据的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据的步骤,直至所述最大梯度小于所述第一阈值。
[0010]通过采用上述技术方案,在本轮计算中,若最大梯度大于等于第一阈值,说明以该最大梯度对应的第一切分点切分的第一正常数据和第一异常数据还不够准确,则去除该第一切分点对应的第一异常数据,将剩余的第一正常数据作为原始数据,并按照上述方式进行下一轮计算,直至找到的最大梯度小于第一阈值。通过多轮迭代切分的方式,逐轮去除第一异常数据,最终确定出准确的正常数据,实现对正常数据与异常数据的准确切分,减少异常数据对后续阈值计算的干扰。
[0011]可选的,所述计算各所述切分点对应的离散程度之和,得到散度分布图,包括:以各所述切分点为基准将所述原始数据进行切分,得到各所述切分点对应的第二正常数据与第二异常数据,所述第二异常数据为所述原始数据中大于等于对应的切分点的数据,所述第二正常数据为所述原始数据中小于对应的切分点的数据;将各所述切分点对应的第二正常数据与所述第二异常数据代入数据离散程度公式,得到各所述切分点对应的离散程度之和;将各所述切分点对应的离散程度之和进行拟合,得到散度分布图;所述数据离散程度公式为:;式中,为所述原始数据中第k个切分点对应的第二正常数据与第二异常数据的离散程度之和,;为所述第k个切分点对应的第二正常数据的均值,为所述第k个切分点对应的第二异常数据的均值;i为所述第k个切分点对应的第二正常数据中数据的序号,j为所述第k个切分点对应的第二异常数据中数据的序号;为所述第k个切分点对应的第二正常数据中的第i个数据,为所述第k个切分点对应的第二异常数据中的第j个数据;m为所述第k个切分点对应的第二正常数据中数据的数量,n为所述第k个切分点对应的第二异常数据中数据的数量。
[0012]通过采用上述技术方案,分别计算各切分点对应的离散程度之和,再将各切分点
对应的离散程度之和进行拟合,最终得到散度分布图,便于后续确定最佳的切分点。
[0013]可选的,所述将所述正常数据输入核密度估计模型,得到概率密度函数,包括:将所述正常数据切分为若干个数据区间;分别对每个所述数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线;对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数。
[0014]通过采用上述技术方案,在切分得到正常数据之后,将正常数据用函数形式表示,便于量化处理正常数据中的多个数据。
[0015]可选的,所述对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数之后,还包括:对所述概率密度函数进行归一化处理。
[0016]通过采用上述技术方案,对拟合叠加得到的概率密度函数进行归一化处理,保证概率密度函数的积分为1,确保后续能够使用统一的异常概率,对不同类型的用户行为数据进行阈值计算。
[0017]可选的,所述基于所述概率密度函数与预设的异常概率得到检测阈值,包括:设定异常概率,将所述概率密度函数与所述异常概率代入概率密度公式,得到检测阈值;所述概率密度公式为:;式中,为所述检测阈值;为所述概率密度函数;为所述异常概率。
[0018]通过采用上述技术方案,设定统一的异常概率,可求取不同类型的用户行为数据的检测阈值,减少用户计算的人工成本。
[0019]第二方面,本申请提供了一种检测阈值计算装置,所述装置包括:异常数据过滤模块,用于基于离散程度过滤掉原始数据中的异常数据,得到正常数据;核密度估计模块,用于将所述正常数据输入核密度估计模型,得到概率密度函数;检测阈值计算模块,用于基于所述概率密度函数与预设的异常概率得到检测阈值。
[0020]第三方面,本申请提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述任意一项方法。
[0021]第四方面,本申请提供了一种电子设备,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测阈值计算方法,其特征在于,所述方法包括:基于离散程度过滤掉原始数据中的异常数据,得到正常数据;将所述正常数据输入核密度估计模型,得到概率密度函数;基于所述概率密度函数与预设的异常概率得到检测阈值。2.根据权利要求1所述的方法,其特征在于,所述基于离散程度过滤掉原始数据中的异常数据,得到正常数据,包括:将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据,所述第一异常数据为所述原始数据中大于等于所述第一切分点的数据,所述第一正常数据为所述原始数据中小于所述第一切分点的数据;判断所述最大梯度是否小于第一阈值;若所述最大梯度小于第一阈值,则将所述第一正常数据确定为所述正常数据。3.根据权利要求2所述的方法,其特征在于,所述判断所述最大梯度是否小于第一阈值之后,还包括:若所述最大梯度大于等于第一阈值,则将所述第一正常数据作为原始数据,重复执行上述将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据的步骤,直至所述最大梯度小于所述第一阈值。4.根据权利要求2所述的方法,其特征在于,所述计算各所述切分点对应的离散程度之和,得到散度分布图,包括:以各所述切分点为基准将所述原始数据进行切分,得到各所述切分点对应的第二异常数据与第二正常数据,所述第二异常数据为所述原始数据中大于等于对应的切分点的数据,所述第二正常数据为所述原始数据中小于对应的切分点的数据;将各所述切分点对应的第二正常数据与所述第二异常数据代入数据离散程度公式,得到各所述切分点对应的离散程度之和;将各所述切分点对应的离散程度之和进行拟合,得到散度分布图;所述数据离散程度公式为:;式中,为所述原始数据中第k个切分点对应的第二正常数据与第二...

【专利技术属性】
技术研发人员:王天奇翟瑞谢檬
申请(专利权)人:北京万里红科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1