一种基于关系图谱的缺失数据智能插补方法和系统技术方案

技术编号:38057814 阅读:10 留言:0更新日期:2023-06-30 11:23
本发明专利技术涉及信息处理技术领域,具体而言,涉及一种基于关系图谱的缺失数据智能插补方法和系统,总体上基于回归插补思想,引入了数据之间的关系图谱作为缺失值预测模型的输入控制策略;采用改进后的神经网络模型,使得多个变量的缺失值预测可以使用同一个模型;针对数据“大范围、大比例”缺失的场景,构建了一套高可信度的插补顺序控制策略和二次插补策略。总的来说,本发明专利技术降低了插补系统的复杂程度,同时提高了插补过程的计算效率。同时提高了插补过程的计算效率。同时提高了插补过程的计算效率。

【技术实现步骤摘要】
一种基于关系图谱的缺失数据智能插补方法和系统


[0001]本专利技术涉及信息处理
,具体而言,涉及一种基于关系图谱的缺失数据智能插补方法和系统。

技术介绍

[0002]随着机器学习和数字孪生技术的广泛应用,软件系统对数据的依赖程度大幅提高,对数据输入的完整性和可信度也提出了更高的要求,但由于采集和存储过程中的缺陷,原始数据频繁存在缺失的情况,对于这些缺失数据的插补是工程领域不得不面临的问题。
[0003]现有技术主要包含如下三种:热卡插补法、回归插补法以及多重插补法,其中,
[0004]热卡插补法在完整数据中找到一个与它最相似的对象,有时会找到超过一个相似对象,在所有匹配对象中随机挑选一个作为填充值。该方法概念上很简单,且利用了数据间的关系来进行空值评估,但缺点在于“相似标准”难以准确定义,受主观因素影响大。
[0005]多重插补法认为缺失值是随机分布的,多重插补算法例如MICE算法会首先采用回归插补的方式估计出待插补的值,然后模拟噪声形成多组可选插补值,最后将生成的多组数据集和原数据集进行比对,选择与原数据集分布偏移最小的集合作为最终结果。多重插补只能处理随机缺失,无法处理非随机缺失,并且也需要大量计算。
[0006]回归插补法则是利用有监督的机器学习方法,比如回归、最邻近、随机森林、支持向量机等模型,基于完整的数据集建立预测模型,将已知属性代入模型对缺失属性作预测,其优势在于预测的准确性高,缺点是需要大量的计算,导致缺失值的处理速度大打折扣。
[0007]具体地,回归插补法会为每一个变量建立缺失值预测模型,在“表多、字段多”的大数据场景下,为每一个变量建模将消耗大量资源,也会大幅增加系统的复杂度;此外,在模型训练以及实际预测过程中,回归插补法以除目标变量外的所有变量为输入,需要消耗大量的算力和计算时间,同时也形成了对这些变量的依赖,当同一行存在缺失多条数据时,模型的输入也将有缺失值,导致模型变得难以计算,因此无法适用于“大范围、大比例”的数据缺失场景。

技术实现思路

[0008]本专利技术的目的在于提供一站式的数据插补技术,基于回归插补的思想,引入数据之间的关系图谱作为输入进行缺失值预测模型的训练,使得同一模型可实现多个变量的缺失值预测;通过构建的考虑同一行内缺失范围、缺失相关度的插补顺序控制策略,可适用于“大范围、大比例”的数据缺失场景,实现高可信度、高计算效率的数据插补,以解决
技术介绍
中所指出的问题。
[0009]本专利技术的实施例通过以下技术方案实现:一种基于关系图谱的缺失数据智能插补方法,包括如下步骤:
[0010]生成变量数据集,并进行特征数值化和数值归一化预处理;
[0011]基于变量之间的相关系数,建立变量关系图谱;
[0012]将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练,以获得缺失值预测模型,所述邻接变量为关系图谱中与目标变量直连的变量;
[0013]基于考虑同一行内缺失范围、缺失相关度的插补顺序控制策略,使用所述缺失值预测模型实现缺失数据的智能插补;
[0014]对变量进行解码还原。
[0015]根据一种优选实施方式,所述基于变量之间的相关系数,建立变量关系图谱,包括:
[0016]计算所有变量之间的相关性矩阵,并对相关性矩阵做二值化处理;
[0017]将经过二值化处理后的相关性矩阵对角元素置0,得到邻接矩阵,基于所述邻接矩阵构建关系图谱。
[0018]根据一种优选实施方式,所述基于变量之间的相关系数,建立变量关系图谱,还包括:
[0019]在得到的邻接矩阵基础上,基于专家经验数据对其进行优化调整。
[0020]根据一种优选实施方式,所述将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练,以获得缺失值预测模型,包括:
[0021]取各变量的邻接向量,逐行与输入张量进行hadamard积,生成N个相同维度的中间张量,N为输入张量中变量的个数;
[0022]将所述中间张量作为模型输入进行N轮前向传播,生成N个输出张量,其中,每轮前向传播完均不进行参数更新;
[0023]将所述输入张量作为输入进行一轮前向传播,并更新过程参数;
[0024]将所述输出张量中除第j列以外的其它元素置零,并对N个所述输出张量进行求和,得到最终输出张量,j为输出张量前向传播轮数;
[0025]基于最终输出张量与输入张量的偏差进行反向传播,以此重复直至网络收敛或训练次数达到设定值,完成缺失值预测模型的训练。
[0026]根据一种优选实施方式,所述基于考虑同一行内缺失范围的插补顺序控制策略为:
[0027]对当前数据行的所有空值进行充分性验证,对满足充分性验证要求的空值执行填充;
[0028]循环迭代,直至没有满足充分性验证要求的空值。
[0029]根据一种优选实施方式,所述使用所述缺失值预测模型实现缺失数据的智能插补,包括:
[0030]将当前数据行和目标空值的邻接向量进行hadamard积,得到屏蔽处理后的向量;
[0031]将上述向量作为输入,通过缺失值预测模型计算结果;
[0032]提取计算结果中目标空值所对应列作为预测值,替换目标空值。
[0033]根据一种优选实施方式,所述基于考虑同一行内缺失相关度的插补顺序控制策略为:
[0034]根据空值的缺失相关度对空值进行排序,所述缺失相关度为缺失值在当前空值所有邻接变量中的相关性占比,表达式如下:
[0035][0036]上式中,r
ij
代表相关性矩阵第i行第j列的元素,l
j
是邻接向量L的第j个元素,z
j
是缺失状态向量Z的第j个元素,若数据行第j位的数据为空,则z
j
=1,否则为z
j
=0;
[0037]利用缺省值代替邻接变量中的空值作为输入,按缺失相关度由低到高的顺序执行填充。
[0038]根据一种优选实施方式,所述执行填充后,还包括:
[0039]计算插补数据的可信度,形成可信度对照表,其中,所述插补数据分为原始数据以及插补值,所述插补值计算表达式如下:
[0040][0041]上式中,ε为调和系数,η为模型损益系数,表示使用模型预测带来的可信度损失,λ
j
表示当前数据行第j个变量的可信度。
[0042]根据一种优选实施方式,所述将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练,以获得缺失值预测模型,还包括:
[0043]将缺失值预测模型作为预训练模型,使用所述预训练模型实现缺失数据的智能插补;
[0044]计算每行插补数据的平均可信度,将平均可信度高于预设阈值的数据行作为新的输入对预训练模型进行二次训练,得到最终缺失值预测模型。
[0045]本专利技术还提供一种基于关系图谱的缺失数据智能插补系统,应用到如上述所述的方法,包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系图谱的缺失数据智能插补方法,其特征在于,包括如下步骤:生成变量数据集,并进行特征数值化和数值归一化预处理;基于变量之间的相关系数,建立变量关系图谱;将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练,以获得缺失值预测模型,所述邻接变量为关系图谱中与目标变量直连的变量;基于考虑同一行内缺失范围、缺失相关度的插补顺序控制策略,使用所述缺失值预测模型实现缺失数据的智能插补;对变量进行解码还原。2.如权利要求1所述的基于关系图谱的缺失数据智能插补方法,其特征在于,所述基于变量之间的相关系数,建立变量关系图谱,包括:计算所有变量之间的相关性矩阵,并对相关性矩阵做二值化处理;将经过二值化处理后的相关性矩阵对角元素置0,得到邻接矩阵,基于所述邻接矩阵构建关系图谱。3.如权利要求2所述的基于关系图谱的缺失数据智能插补方法,其特征在于,所述基于变量之间的相关系数,建立变量关系图谱,还包括:在得到的邻接矩阵基础上,基于专家经验数据对其进行优化调整。4.如权利要求1所述的基于关系图谱的缺失数据智能插补方法,其特征在于,所述将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练,以获得缺失值预测模型,包括:取各变量的邻接向量,逐行与输入张量进行hadamard积,生成N个相同维度的中间张量,N为输入张量中变量的个数;将所述中间张量作为模型输入进行N轮前向传播,生成N个输出张量,其中,每轮前向传播完均不进行参数更新;将所述输入张量作为输入进行一轮前向传播,并更新过程参数;将所述输出张量中除第j列以外的其它元素置零,并对N个所述输出张量进行求和,得到最终输出张量,j为输出张量前向传播轮数;基于最终输出张量与输入张量的偏差进行反向传播,以此重复直至网络收敛或训练次数达到设定值,完成缺失值预测模型的训练。5.如权利要求1所述的基于关系图谱的缺失数据智能插补方法,其特征在于,所述基于考虑同一行内缺失范围的插补顺序控制策略为:对当前数据行的所有空值进行充分性验证,对满足充分性验证要求的空值执行填充;循环迭代,直至没有满足充分性验证要求的空值。6.如权利要求1所述的基于关系图谱的缺失数据智能插补方法,其特征在于,所述使用所述缺失值预测模型实现缺失数据的智能插补,包括:将当前数据行和目标空值的邻接向量进行hadamard积,得到屏蔽处理后的向量;将...

【专利技术属性】
技术研发人员:廖伟夏欢陈肇欣潘野张涛郑奕薛方冉陈哲晏楠欣
申请(专利权)人:中国民用航空总局第二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1