基于多元回归模型的医疗数据缺失处理方法、装置及设备制造方法及图纸

技术编号:31023371 阅读:23 留言:0更新日期:2021-11-30 03:19
本申请公开了一种基于多元回归模型的医疗数据缺失处理方法、装置及设备,可解决目前已有数据填补方法在填补数据时,数据填补质量较差且准确性不够的技术问题。包括:获取医疗数据对应的缺失元组,并确定与所述缺失元组对应医疗数据类型匹配的完整元组,其中,所述缺失元组由缺失属性和部分完整属性构成,所述完整元组由完整属性构成;利用所述完整元组所包含的完整属性生成预设数量个多元回归模型;确定所述缺失元组中关于所述缺失属性的候选填补属性组合;在所述候选填补属性组合中筛选出在所述多元回归模型上总拟合误差最小的目标候选填补属性组合,利用所述目标候选填补属性组合填补所述缺失元组。本申请适用于对缺失医疗数据的填补处理。疗数据的填补处理。疗数据的填补处理。

【技术实现步骤摘要】
基于多元回归模型的医疗数据缺失处理方法、装置及设备


[0001]本申请涉及大数据处理
,尤其涉及到一种基于多元回归模型的医疗数据缺失处理方法、装置及设备。

技术介绍

[0002]随着计算机技术和存储设备的快速发展,数据量爆发式增长,随之而来的便是各种数据质量问题,其中最为明显的就是数据缺失问题。缺失数据的存在显然会影响下游分析应用的性能,如聚类、分类、实体匹配等,以及统计分析的准确性,如均值、方差、中位数等。由此可见,准确地填补缺失数据是尤为重要的。
[0003]目前已有的数据填补方法是根据约束或统计信息对医疗数据进行填补,基于约束的方法利用定义在数据集上的规则约束来生成填补值,然而对于任意给定的数据集,通常很难得到准确且足够的规则约束,这意味着可用的约束可能并不足够指导填补所有缺失值,同时可用的约束并不一定是完全准确可靠的,可能会给数据集引入更多的脏数据,进一步降低数据填补的质量。基于统计的方法会根据分析数据的统计信息来对缺失数据进行填补,例如属性的均值等,而忽略了缺失元组中含有的其他完整属性值与该缺失属性的关系,导致填补准确性本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多元回归模型的医疗数据缺失处理方法,其特征在于,包括:获取医疗数据对应的缺失元组,并确定与所述缺失元组对应医疗数据类型匹配的完整元组,其中,所述缺失元组由缺失属性和部分完整属性构成,所述完整元组由完整属性构成;利用所述完整元组所包含的完整属性生成预设数量个多元回归模型;确定所述缺失元组中关于所述缺失属性的候选填补属性组合;在所述候选填补属性组合中筛选出在所述多元回归模型上总拟合误差最小的目标候选填补属性组合,利用所述目标候选填补属性组合填补所述缺失元组。2.根据权利要求1所述的方法,其特征在于,所述利用所述完整元组所包含的完整属性生成预设数量个多元回归模型,包括:将所述完整元组中任一完整属性确定为右值属性,将其他完整属性确定为左值属性;通过分析所述右值属性和所述左值属性之间的回归关系,创建并训练关于所述右值属性的多元回归模型;若确定所述多元回归模型中的所述右值属性服从正态分布,则判定所述多元回归模型训练完成。3.根据权利要求1所述的方法,其特征在于,所述确定所述缺失元组中关于所述缺失属性的候选填补属性组合,包括:获取用于填补所述缺失元组中各个缺失属性的候选填补属性;按照预设排列规则组合所述候选填补属性,生成所述缺失元组的候选填补属性组合。4.根据权利要求3所述的方法,其特征在于,所述获取用于填补所述缺失元组中各个缺失属性的候选填补属性,包括:确定所述缺失元组的第一完整属性和第一缺失属性,在所述完整元组中筛选预设数量个与所述第一完整属性相似度最高的完整元组;将每一所述完整元组中与所述第一缺失属性对应属性类型匹配的第二完整属性确定为候选填补属性。5.根据权利要求3所述的方法,其特征在于,所述获取用于填补所述缺失元组中各个缺失属性的候选填补属性,包括:确定所述缺失元组的第一缺失属性,以及筛选与所述缺失元组对应同一数据主体的历史元组;将所述历史元组中与所述第一缺失属性对应属性类型匹配的第三完整属性确定为候选填补属性;或,确定所述缺失元组的第一缺失属性,以及提取与所述第一缺失属性对应属性类型匹配的候选填补属性集;提取所述候选填补属性集中的候选填补属性;或,根据历史元组确定与第一缺失属性对应属性类型匹配的第三完整属性,并提取与所述第一缺失属性对应属性类型匹配的候选填补属性集;在所述候选填补属性集中筛选与所述第三完整属性特征距离小于预设距离阈值的第四完整属性,将所述第四完整属性确定为候...

【专利技术属性】
技术研发人员:徐啸
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1