System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于分区数据划分的医疗数据缺失值填充方法及系统技术方案_技高网

基于分区数据划分的医疗数据缺失值填充方法及系统技术方案

技术编号:40600785 阅读:7 留言:0更新日期:2024-03-12 22:05
本发明专利技术公开了一种基于分区数据划分的医疗数据缺失值填充方法及系统,其先根据数据样本的标签类别将不完整数据集划分为多个子集,实现了数据标签聚类,再对每个子集进行居中化处理,可以更好地描述每个子集的数据样本在各个特征上的集中趋势,并通过计算每个子集与居中值集合中数据样本的成对相似度来将每个子集划分为多个分区,可以准确地实现每个子集的数据特征聚类,再通过两次相似度计算筛选出匹配数据样本进行缺失值填充。整个缺失值填充过程不依赖完整数据集,大大提高了算法的通用性,并且填充过程先后经过了数据标签聚类、数据特征聚类和两次相似度筛选,可以准确地找到最相似的特征值进行填充,大幅度提高了缺失值的填充准确度。

【技术实现步骤摘要】

本专利技术涉及缺失数据填充,特别地,涉及一种基于分区数据划分的医疗数据缺失值填充方法及系统、电子设备、计算机可读取的存储介质。


技术介绍

1、物联网(lot)的出现,改变了监测设备(尤其是医疗设备)和人类的互动方式,其可以将监测设备的信息通过传感器和智能处理相结合进行实时、准确的传递,利用云计算、模式识别等各种智能技术从传感器获得大量信息后,经过分析、加工和处理得出有意义的数据,从而得到准确的预测结果。例如,在医疗监测领域,对于心脏病患者而言,在物联网之前,患者只能通过电话或短信与医生进行身体状况远程交流,没有一种切实可行的方法来持续评估患者的健康状况并提供健康指导,而医疗监测设备可以在患者远程监护中起到至关重要的作用,帮助医生向患者提供便利、高级、全面的护理,从而使医疗保健行业远程监护成为可能。

2、但是,由于传感器设备故障或网络故障会导致监测数据包值缺失,当一个或多个独立变量的值不可用时,数据样本就被称为缺失数据,缺失数据会导致预测结果的准确性出现偏差。例如,心脏病数据集中的信息缺乏可能导致不准确的疾病预测。目前,传统的处理数据缺失的方法有删除或忽略缺失的数据样本、手动替换空值、利用数据的平均值进行替换等,但这些处理方法的效率低,缺失数据的填充值选择不适当,仍然无法保证预测结果的准确性。另外,现有研究还提出了基于缺失实例与完整实例进行相似度匹配,并基于最优匹配结果从完整实例中选取样本数据对缺失值进行填充,例如,专利cn116486975a公开了一种缺失数据的填充方法,其通过计算数据缺失患者和多个数据完整患者之间的相似度,筛选出相似度最高的数据完整患者,再根据数据完整患者的临床数据对数据缺失患者的临床数据缺失值进行填充。但是,该方法过于依赖完整数据集,当缺少完整数据集或者完整数据集的数量较少时,缺失值的填充准确度较差,在实际应用时存在较大的局限性,通用性较差。


技术实现思路

1、本专利技术提供了一种基于分区数据划分的医疗数据缺失值填充方法及系统、电子设备、计算机可读取的存储介质,以解决现有的数据缺失值填充方法由于过于依赖完整数据集导致的缺失值填充准确度差、通用性差的技术问题。

2、根据本专利技术的一个方面,提供一种基于分区数据划分的医疗数据缺失值填充方法,包括以下内容:

3、获取不完整的数据集,并根据数据样本的标签类别将不完整数据集划分为多个子集;

4、对每个子集进行居中化处理,得到每个子集对应的居中值集合;

5、对每个子集与其对应的居中值集合中的数据样本进行成对相似度计算,并根据计算结果将每个子集划分为多个分区;

6、从多个分区中筛选出与缺失样本最相似的分区,将其作为匹配分区;

7、从匹配分区中筛选出与缺失样本最相似的数据样本,将其作为匹配数据样本,并从匹配数据样本中选择缺失特征的对应值,以对缺失样本中的缺失值进行填充。

8、进一步地,所述对每个子集进行居中化处理,得到每个子集对应的居中值集合的过程包括以下内容:

9、读取每个子集中的数据样本,检查属性值是否为缺失值,若为缺失值,则将其替换为零;

10、对于每个属性,将属性的每个值减去该属性的均值,从而得到每个子集对应的居中值集合。

11、进一步地,所述对每个子集与其对应的居中值集合中的数据样本进行成对相似度计算,并根据计算结果将每个子集划分为多个分区的过程包括以下内容:

12、计算每个子集与其对应的居中值集合中数据样本的成对相似度,得到一组有序的相似度列表;

13、根据相似度列表将每个子集划分为多个分区,并确定每个分区的中心数据样本。

14、进一步地,所述根据相似度列表将每个子集划分为多个分区的过程包括以下内容:

15、将相似度列表按升序排列,选择1/4、2/4、3/4、4/4处作为数据划分点,从而将每个子集划分为四个四分位数子集。

16、进一步地,将每个分区中成对相似度最大值或成对相似度均值所对应的数据样本作为中心数据样本。

17、进一步地,所述从多个分区中筛选出与缺失样本最相似的分区,将其作为匹配分区的过程包括以下内容:

18、将缺失样本中的缺失值用特殊值进行填充;

19、剔除缺失样本中的缺失特征及缺失特征在中心数据样本中的对应值后,计算缺失样本与多个中心数据样本之间的相似度;

20、将相似度最高的中心数据样本对应的分区作为匹配分区。

21、进一步地,若基于相似度计算确定的匹配数据样本中缺失特征的对应值为空,则将匹配数据样本所在的分区的中心数据样本作为新的匹配数据样本,并基于该中心数据样本进行缺失值的填充。

22、另外,本专利技术还提供一种基于分区数据划分的医疗数据缺失值填充系统,包括:

23、数据采集模块,用于将获取不完整的数据集,并根据数据样本的标签类别将不完整数据集划分为多个子集;

24、居中化处理模块,用于对每个子集进行居中化处理,得到每个子集对应的居中值集合;

25、分区划分模块,用于对每个子集与其对应的居中值集合中的数据样本进行成对相似度计算,并根据计算结果将每个子集划分为多个分区;

26、分区匹配模块,用于从多个分区中筛选出与缺失样本最相似的分区,将其作为匹配分区;

27、缺失值填充模块,用于从匹配分区中筛选出与缺失样本最相似的数据样本,将其作为匹配数据样本,并从匹配数据样本中选择缺失特征的对应值,以对缺失样本中的缺失值进行填充。

28、另外,本专利技术还提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如上所述的方法的步骤。

29、另外,本专利技术还提供一种计算机可读取的存储介质,用于存储基于分区数据划分进行医疗数据缺失值填充的计算机程序,所述计算机程序在计算机上运行时执行如上所述的方法的步骤。

30、本专利技术具有以下效果:

31、本专利技术的基于分区数据划分的医疗数据缺失值填充方法,先根据数据样本的标签类别将不完整数据集划分为多个子集,实现了数据标签聚类,再对每个子集进行居中化处理,可以更好地描述每个子集的数据样本在各个特征上的集中趋势,并通过计算每个子集与居中值集合中数据样本的成对相似度来将每个子集划分为多个分区,可以准确地实现每个子集的数据特征聚类,再通过两次相似度计算先后筛选出匹配分区和匹配数据样本,从而实现缺失样本中的缺失值填充。整个缺失值填充过程无需依赖完整数据集,大大提高了算法的通用性,并且填充过程先后经过了数据标签聚类、数据特征聚类和两次相似度筛选,可以准确地找到最相似的特征值进行填充,大幅度提高了缺失值的填充准确度。

32、另外,本专利技术的基于分区数据划分的医疗数据缺失值填充系统同样具有上述优点。

33、除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参本文档来自技高网...

【技术保护点】

1.一种基于分区数据划分的医疗数据缺失值填充方法,其特征在于,包括以下内容:

2.如权利要求1所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述对每个子集进行居中化处理,得到每个子集对应的居中值集合的过程包括以下内容:

3.如权利要求1所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述对每个子集与其对应的居中值集合中的数据样本进行成对相似度计算,并根据计算结果将每个子集划分为多个分区的过程包括以下内容:

4.如权利要求3所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述根据相似度列表将每个子集划分为多个分区的过程包括以下内容:

5.如权利要求3所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,将每个分区中成对相似度最大值或成对相似度均值所对应的数据样本作为中心数据样本。

6.如权利要求3所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述从多个分区中筛选出与缺失样本最相似的分区,将其作为匹配分区的过程包括以下内容:

7.如权利要求3所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,若基于相似度计算确定的匹配数据样本中缺失特征的对应值为空,则将匹配数据样本所在的分区的中心数据样本作为新的匹配数据样本,并基于该中心数据样本进行缺失值的填充。

8.一种基于分区数据划分的医疗数据缺失值填充系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,用于执行如权利要求1~7任一项所述的方法的步骤。

10.一种计算机可读取的存储介质,用于存储基于分区数据划分进行医疗数据缺失值填充的计算机程序,其特征在于,所述计算机程序在计算机上运行时执行如权利要求1~7任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于分区数据划分的医疗数据缺失值填充方法,其特征在于,包括以下内容:

2.如权利要求1所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述对每个子集进行居中化处理,得到每个子集对应的居中值集合的过程包括以下内容:

3.如权利要求1所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述对每个子集与其对应的居中值集合中的数据样本进行成对相似度计算,并根据计算结果将每个子集划分为多个分区的过程包括以下内容:

4.如权利要求3所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,所述根据相似度列表将每个子集划分为多个分区的过程包括以下内容:

5.如权利要求3所述的基于分区数据划分的医疗数据缺失值填充方法,其特征在于,将每个分区中成对相似度最大值或成对相似度均值所对应的数据样本作为中心数据样本。

6.如权利要求3所述的基于分区数据划分的医...

【专利技术属性】
技术研发人员:刘伟华罗艳陈涛魏欣
申请(专利权)人:智慧眼科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1