【技术实现步骤摘要】
一种异常数据智能筛选方法
[0001]本专利技术涉及数据治理、深度学习领域领域,特别涉及一种异常数据智能筛选方法。
技术介绍
[0002]近年来,我国已将“数字经济”列入国家发展战略,大数据、人工智能、区块链等数字技术被广泛应用于智慧城市、公共事务管理等社会治理领域,加速了社会治理的数字化转型进程。
[0003]在数字化转型过程中,“数据治理”是最关键的环节之一。“数据治理”关注的是数据规划、数据获取、数据质量、数据共享、数据标注等数据管理的整个生命周期,是各个领域“智能决策”应用的关键支撑。
[0004]在“数据治理”中,保证数据质量、确保数据的准确性是非常重要的基础工作。在这基础工作中,关注异常数据是关键点,对异常数据的处理是确保数据质量和数据准确性的前提。所以,如何从数据集中筛选出异常数据成为必然。
技术实现思路
[0005]本专利技术所要解决的技术问题是提供一种,以解决现有技术中导致的上述多项缺陷。
[0006]为实现上述目的,本专利技术提供以下的技术方案:一种异常数据智能筛选 ...
【技术保护点】
【技术特征摘要】
1.一种异常数据智能筛选方法,其特征在于,包括如下步骤:步骤1)寻找数据集的中心数据,通过计算子元素与总体数据集之间的数据偏移量,寻找出偏移量最小的数据,即中心数据;步骤2)设置中心半径,以中心数据为圆心,寻找到一个合适的半径,使该圆所覆盖的数据数量为总体数据集的数据数量的一半;步骤3)数据标注,把圆所覆盖的数据,添加标注为0,表示数据正常;把圆没有覆盖的数据,添加标注为1,表示数据异常;步骤4)获取平衡数据集,从标注为0的数据集中随机抽取一半的数据,归入训练集,再从标注为1的数据集中随机抽取一半的数据,归入训练集,由此得到最终的训练数据集;把标注为0的数据集和标注为1的数据集剩下的各一半的数据归入测试集,由此得到测试数据集;步骤5)训练模型,采用Pi
‑
Sigma高阶神经网络来训练模型,寻找到最优权向量及判断阈值;步骤6)判断异常数据结论,针对待判断的数据,输入训练好的Pi
‑
Sigma神经网络中,计算出实际输出值,当实际输出值大于等于判断阈值时,判断该数据正常,无需做处理;当实际输出值小于判断阈值时,判断该数据异常。2.根据权利要求1所述的异常数据智能筛选方法,其特征在于,将数据处理对象,定义为数据集X,X=(X1,X2,
…
,X
i
,
…
,X
n
),其中,n为数据集X包含的数据个数,X
i
为数据集X中的第i个数据,X
i
为C
×
D的多维数据,当X
i
为一个数值时,C=D=1;设X的所有数据元素样本均值为μ,协方差矩阵为∑,X
i
的数据样本均值为μ
i
,协方差矩阵为∑
i
(μ,∑,μ
i
,∑
i
均可通过计算得出实际值)。3.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤1)中,下面通过计算子元素X
i
与总体数据集X的偏移量,寻找出偏移量最小的数据,即寻找X的中心数据,X
i
与X的偏移量定义如下:σ
i
=(μ
i
‑
μ)'(∑
i
)
‑1(μ
i
‑
μ)然后寻找偏移量最小的数据,记为X0:X0={X
i
|min(σ
i
),i=1,2,
…
,n}X0即为X的中心数据,X0的数据元素个数为1个或者多个。4.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤2)中,以X0的数据元素为圆心(当X0的数据元素个数为多个时,随机选取其中一个作为圆心),设置初始半径R0,计算1个或者多个圆(对应X0的数据元素个数)覆盖的数据数量:(1)当覆盖的数据数量大于[n/2](取整),缩小R0的值,进行寻找;(2)当覆盖的数据数量小于[n/2],扩大R0的值,进行寻找;(3)当覆盖的数据数量为[n/2],确定出中心半径R=R0,停止寻找。把圆所覆盖的所有数据集,记为:X
in
;把圆没有覆盖的所有数据集,记为:X
out
。5.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤3)中,把X
in
里的数据元素,添加标注为0,表示数据正常;把X
out
里的数据元素,添加标注为1,表示数据异常;标注原则:把距X的中心数据较近的数据标注为0,其它较远的数据标注为1。6.根据权利要求1所述的异常数据智能筛选方法,其特征在于,所述步骤4)中,设训练数据集和测试数据集分别记为H0和H1,从X
in
中随机抽取一半的数据,归入H0,再从X
out
中随机
抽取一半的数据,归入H0,由此得到训练数据集H0;把X
in
和X
out
剩下的各一半的数据归入H1,由此得到测试数据集H1;H0=(X
0,1
,X
0,2
,
…
,X
0,j
…
,X
0,[n/2]
),其中,X
0,j
=(x
0,j,1
,x
0,j,2
,
…
,x
0,j,d<...
【专利技术属性】
技术研发人员:邓飞,何俊,洪孙焱,岳维好,陈震霆,石宝坤,
申请(专利权)人:昆明学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。