智能化的缺失数据填充方法、装置及计算机可读存储介质制造方法及图纸

技术编号:24888620 阅读:27 留言:0更新日期:2020-07-14 18:15
本发明专利技术涉及人工智能技术,揭露了一种智能化的缺失数据填充方法,包括:接收缺失数据集,将所述缺失数据集执行时间映射处理,得到输出序列集及时间映射关系,将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集,捕获所述分类数据集的缺失数据特征,得到缺失数据特征集,根据所述时间映射关系计算所述缺失数据特征集的特征时间关系,将所述特征时间关系进行多时序融合,得到时间点缺失数据集,计算所述时间点缺失数据集的概率残差值,将所述概率残差值作为预设数据填充函数的函数值计算得到数据填充值。本发明专利技术还提出一种智能化的缺失数据填充装置以及一种计算机可读存储介质。本发明专利技术可以实现较精准的缺失数据填充功能。

【技术实现步骤摘要】
智能化的缺失数据填充方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种智能化的缺失数据填充方法、装置及计算机可读存储介质。
技术介绍
在很多数据处理领域中经常发生必要数据缺失的情况。数据缺失会给模型训练或实验现象研究带来很大负面影响,如医疗领域内(疾病预测、临床决策支持系统等)的训练和应用都带来极大的负面影响,降低了疾病预测等模型的性能及可用性。目前常用的缺失数据填充是采用填充众数、平均数等方法或去除法,虽然可以达到缺失数据的填充目的,且效率高,但由于计算精度不高,很容易出现补充的缺失数据与实际数据相差甚远的情况,因此,亟需一种较精准修复缺失数据的手段。
技术实现思路
本专利技术提供一种智能化的缺失数据填充方法、装置及计算机可读存储介质,其主要目的在提供一种较精准的修复缺失数据的手段。为实现上述目的,本专利技术提供的一种智能化的缺失数据填充方法,包括:接收原始缺失数据集,将所述原始缺失数据集进行预处理得到标准缺失数据集;将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系;将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集;获得所述分类数据集的缺失数据特征,得到缺失数据特征集;基于所述时间映射关系计算所述缺失数据特征集的特征时间关系;将所述特征时间关系进行多时序融合,得到时间点缺失数据集;计算所述时间点缺失数据集的概率残差值,将所述概率残差值作为预设数据填充函数的函数值计算得到数据填充值。可选地,所述将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系,包括:根据向量对应元素乘法规则和预构建的权重矩阵,计算所述标准缺失数据集的协调因子和隐藏单元;根据所述协调因子和所述隐藏单元构建所述时间映射关系的权重系数,根据所述权重系数求解所述时间映射关系和所述输出序列集;其中,所述协调因子和所述隐藏单元的计算方式为:rt=sigm(Wxrxt+Whrht-1+br)zt=sigm(Wxzxt+Whzht-1+bz)其中,xt是所述标准缺失数据集第t个数据,ht为所述隐藏单元,由rt,zt,三个协调因子共同控制,⊙是向量对应元素乘法规则,Wxr,Whr,Wxz,Whz,和Ut分别是所述时间映射处理过程的权重矩阵,br,bz,bh是所述时间映射处理过程的权重向量。可选地,所述将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集,包括:遍历所述输出序列集,以从所述输出序列集中随机且不重复的选择两个输出序列数据,根据所述输出序列数据构建第一假设分类模型和第二假设分类模型;根据数据相似度计算方法求解所述第一假设分类模型和第二假设分类模型的相似度;根据所述相似度和联合贝叶斯算法对所述输出序列集进行数据分类,得到所述分类数据集。可选地,所述数据相似度计算方法为:利用下述公式计算所述第一假设分类模型和所述第二假设分类模型的相似度值:其中,r(x1,x2)是描述所述输出序列集内x1,x2两个数据属于同一类别的程度,P(x1+x2|H1)和P(x1+x2|H2),分别表示所述第一假设分类模型和第二假设分类模型,H1和H2为两种假设条件。可选地,所述计算所述时间点缺失数据集的概率残差值,包括:初始化梯度增强树加法模型;根据前向分步算法优化所述梯度增强树加法模型;使用优化后的所述梯度增强树加法模型计算所述时间点缺失数据集的所属类别;求解所述所属类别的差值得到概率残差值。此外,为实现上述目的,本专利技术还提供一种智能化的缺失数据填充装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的智能化的缺失数据填充程序,所述智能化的缺失数据填充程序被所述处理器执行时实现如下步骤:接收原始缺失数据集,将所述原始缺失数据集进行预处理得到标准缺失数据集;将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系;将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集;获得所述分类数据集的缺失数据特征,得到缺失数据特征集;基于所述时间映射关系计算所述缺失数据特征集的特征时间关系;将所述特征时间关系进行多时序融合,得到时间点缺失数据集;计算所述时间点缺失数据集的概率残差值,将所述概率残差值作为预设数据填充函数的函数值计算得到数据填充值。可选地,所述将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系,包括:根据向量对应元素乘法规则和预构建的权重矩阵,计算所述标准缺失数据集的协调因子和隐藏单元;根据所述协调因子和所述隐藏单元构建所述时间映射关系的权重系数,根据所述权重系数求解所述时间映射关系和所述输出序列集;其中,所述协调因子和所述隐藏单元的计算方式为:rt=sigm(Wxrxt+Whrht-1+br)zt=sigm(Wxzxt+Whzht-1+bz)其中,xt是所述标准缺失数据集第t个数据,ht为所述隐藏单元,由rt,zt,三个协调因子共同控制,⊙是向量对应元素乘法规则,Wxr,Whr,Wxz,Whz,和Ut分别是所述时间映射处理过程的权重矩阵,br,bz,bh是所述时间映射处理过程的权重向量。可选地,所述将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集,包括:遍历所述输出序列集,以从所述输出序列集中随机且不重复的选择两个输出序列数据,根据所述输出序列数据构建第一假设分类模型和第二假设分类模型;根据数据相似度计算方法求解所述第一假设分类模型和第二假设分类模型的相似度;根据所述相似度和联合贝叶斯算法对所述输出序列集进行数据分类,得到所述分类数据集。可选地,所述计算所述时间点缺失数据集的概率残差值,包括:初始化梯度增强树加法模型;根据前向分步算法优化所述梯度增强树加法模型;使用优化后的所述梯度增强树加法模型计算所述时间点缺失数据集的所属类别;求解所述所属类别的差值得到概率残差值。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有智能化的缺失数据填充程序,所述智能化的缺失数据填充程序可被一个或者多个处理器执行,以实现如上所述的智能化的缺失数据填充方法的步骤。本专利技术先将数据集进行时间映射处理得到输出序列集,并经过联合贝叶斯算法算法进行数据分类,联合贝叶斯算法因此在后期填充缺失数据时,由于数据分类的原因,为填充提供了依据,因为同一类的数据在数据维度上通常相近;进一步地,本专利技术根据缺失数据特征并结合梯度增强树加法模型,在本文档来自技高网...

【技术保护点】
1.一种智能化的缺失数据填充方法,其特征在于,所述方法包括:/n接收原始缺失数据集,将所述原始缺失数据集进行预处理得到标准缺失数据集;/n将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系;/n将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集;/n获得所述分类数据集的缺失数据特征,得到缺失数据特征集;/n基于所述时间映射关系计算所述缺失数据特征集的特征时间关系;/n将所述特征时间关系进行多时序融合,得到时间点缺失数据集;/n计算所述时间点缺失数据集的概率残差值,将所述概率残差值作为预设数据填充函数的函数值计算得到数据填充值。/n

【技术特征摘要】
1.一种智能化的缺失数据填充方法,其特征在于,所述方法包括:
接收原始缺失数据集,将所述原始缺失数据集进行预处理得到标准缺失数据集;
将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系;
将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集;
获得所述分类数据集的缺失数据特征,得到缺失数据特征集;
基于所述时间映射关系计算所述缺失数据特征集的特征时间关系;
将所述特征时间关系进行多时序融合,得到时间点缺失数据集;
计算所述时间点缺失数据集的概率残差值,将所述概率残差值作为预设数据填充函数的函数值计算得到数据填充值。


2.如权利要求1所述的智能化的缺失数据填充方法,其特征在于,所述将所述标准缺失数据集执行时间映射处理,得到输出序列集以及所述标准缺失数据集与所述输出序列集的时间映射关系,包括:
根据向量对应元素乘法规则和预构建的权重矩阵,计算所述标准缺失数据集的协调因子和隐藏单元;
根据所述协调因子和所述隐藏单元构建所述时间映射关系的权重系数,根据所述权重系数求解所述时间映射关系和所述输出序列集;
其中,所述协调因子和所述隐藏单元的计算方式为:
rt=sigm(Wxrxt+Whrht-1+br)
zt=sigm(Wxzxt+Whzht-1+bz)






其中,xt是所述标准缺失数据集第t个数据,ht为所述隐藏单元,由rt,zt,三个协调因子共同控制,⊙是向量对应元素乘法规则,Wxr,Whr,Wxz,Whz,和Ut分别是所述时间映射处理过程的权重矩阵,br,bz,bh是所述时间映射处理过程的权重向量。


3.如权利要求1所述的智能化的缺失数据填充方法,其特征在于,所述将所述输出序列集利用联合贝叶斯算法进行数据分类,得到分类数据集,包括:
遍历所述输出序列集,以从所述输出序列集中随机且不重复的选择两个输出序列数据,根据所述输出序列数据构建第一假设分类模型和第二假设分类模型;
根据数据相似度计算方法求解所述第一假设分类模型和第二假设分类模型的相似度;
根据所述相似度和联合贝叶斯算法对所述输出序列集进行数据分类,得到所述分类数据集。


4.如权利要求3所述的智能化的缺失数据填充方法,其特征在于,所述数据相似度计算方法包括:
利用下述公式计算所述第一假设分类模型和所述第二假设分类模型的相似度值:



其中,r(x1,x2)是描述所述输出序列集内x1,x2两个数据属于同一类别的程度,P(x1+x2|H1)和P(x1+x2|H2),分别表示所述第一假设分类模型和第二假设分类模型,H1和H2为两种假设条件。


5.如权利要求1所述的智能化的缺失数据填充方法,其特征在于,所述计算所述时间点缺失数据集的概率残差值,包括:
初始化梯度增强树加法模型;
根据前向分步算法优化所述梯度增强树加法模型;
使用优化后的所述梯度增强树加法模型计算所述时间点缺失数据集的所属类别;
求解所述所属类别的差值得到概率...

【专利技术属性】
技术研发人员:康延妮绳立淼马欣玥李响谢国彤
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1