一种基于关系图谱的缺失数据智能插补方法和系统技术方案

技术编号：38057814 阅读：10 留言：0更新日期：2023-06-30 11:23

本发明专利技术涉及信息处理技术领域，具体而言，涉及一种基于关系图谱的缺失数据智能插补方法和系统，总体上基于回归插补思想，引入了数据之间的关系图谱作为缺失值预测模型的输入控制策略；采用改进后的神经网络模型，使得多个变量的缺失值预测可以使用同一个模型；针对数据“大范围、大比例”缺失的场景，构建了一套高可信度的插补顺序控制策略和二次插补策略。总的来说，本发明专利技术降低了插补系统的复杂程度，同时提高了插补过程的计算效率。同时提高了插补过程的计算效率。同时提高了插补过程的计算效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关系图谱的缺失数据智能插补方法和系统

[0001]本专利技术涉及信息处理
，具体而言，涉及一种基于关系图谱的缺失数据智能插补方法和系统。

技术介绍

[0002]随着机器学习和数字孪生技术的广泛应用，软件系统对数据的依赖程度大幅提高，对数据输入的完整性和可信度也提出了更高的要求，但由于采集和存储过程中的缺陷，原始数据频繁存在缺失的情况，对于这些缺失数据的插补是工程领域不得不面临的问题。
[0003]现有技术主要包含如下三种：热卡插补法、回归插补法以及多重插补法，其中，
[0004]热卡插补法在完整数据中找到一个与它最相似的对象，有时会找到超过一个相似对象，在所有匹配对象中随机挑选一个作为填充值。该方法概念上很简单，且利用了数据间的关系来进行空值评估，但缺点在于“相似标准”难以准确定义，受主观因素影响大。
[0005]多重插补法认为缺失值是随机分布的，多重插补算法例如MICE算法会首先采用回归插补的方式估计出待插补的值，然后模拟噪声形成多组可选插补值，最后将生成的多组数据集和原数据集进行比对，选择与原数据集分布偏移最小的集合作为最终结果。多重插补只能处理随机缺失，无法处理非随机缺失，并且也需要大量计算。
[0006]回归插补法则是利用有监督的机器学习方法，比如回归、最邻近、随机森林、支持向量机等模型，基于完整的数据集建立预测模型，将已知属性代入模型对缺失属性作预测，其优势在于预测的准确性高，缺点是需要大量的计算，导致缺失值的处理速度大打折扣。
[0007]具体地，回归...

【技术保护点】

【技术特征摘要】
1.一种基于关系图谱的缺失数据智能插补方法，其特征在于，包括如下步骤：生成变量数据集，并进行特征数值化和数值归一化预处理；基于变量之间的相关系数，建立变量关系图谱；将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练，以获得缺失值预测模型，所述邻接变量为关系图谱中与目标变量直连的变量；基于考虑同一行内缺失范围、缺失相关度的插补顺序控制策略，使用所述缺失值预测模型实现缺失数据的智能插补；对变量进行解码还原。2.如权利要求1所述的基于关系图谱的缺失数据智能插补方法，其特征在于，所述基于变量之间的相关系数，建立变量关系图谱，包括：计算所有变量之间的相关性矩阵，并对相关性矩阵做二值化处理；将经过二值化处理后的相关性矩阵对角元素置0，得到邻接矩阵，基于所述邻接矩阵构建关系图谱。3.如权利要求2所述的基于关系图谱的缺失数据智能插补方法，其特征在于，所述基于变量之间的相关系数，建立变量关系图谱，还包括：在得到的邻接矩阵基础上，基于专家经验数据对其进行优化调整。4.如权利要求1所述的基于关系图谱的缺失数据智能插补方法，其特征在于，所述将所述关系图谱中各变量的邻接变量作为输入对神经网络模型进行训练，以获得缺失值预测模型，包括：取各变量的邻接向量，逐行与输入张量进行hadamard积，生成N个相同维度的中间张量，N为输入张量中变量的个数；将所述中间张量作为模型输入进行N轮前向传播，生成N个输出张量，其中，每轮前向传播完均不进行参数更新；将所述输入张量作为输入进行一轮前向传播，并更新过程参数；将所述输出张量中除第j列以外的其它元素置零，并对N个所述输出张量进行求和，得到最终输出张量，j为输出张量前向传播轮数；基于最终输出张量与输入张量的偏差进行反向传播，以此重复直至网络收敛或训练次数达到设定值，完成缺失值预测模型的训练。5.如权利要求1所述的基于关系图谱的缺失数据智能插补方法，其特征在于，所述基于考虑同一行内缺失范围的插补顺序控制策略为：对当前数据行的所有空值进行充分性验证，对满足充分性验证要求的空值执行填充；循环迭代，直至没有满足充分性验证要求的空值。6.如权利要求1所述的基于关系图谱的缺失数据智能插补方法，其特征在于，所述使用所述缺失值预测模型实现缺失数据的智能插补，包括：将当前数据行和目标空值的邻接向量进行hadamard积，得到屏蔽处理后的向量；将...

【专利技术属性】
技术研发人员：廖伟，夏欢，陈肇欣，潘野，张涛，郑奕，薛方冉，陈哲，晏楠欣，
申请(专利权)人：中国民用航空总局第二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人