临床数据插补方法、装置、设备及存储介质制造方法及图纸

技术编号:35410672 阅读:9 留言:0更新日期:2022-11-03 11:06
本发明专利技术实施例公开了一种临床数据插补方法及装置,该方法包括:获取样本数据集合,确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合;对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。本申请实现了在临床数据存在缺失情况下的灵活插补处理,另外,对插补后的样本数据集合进行敏感性分析,提高了数据插补处理的准确性。处理的准确性。处理的准确性。

【技术实现步骤摘要】
临床数据插补方法、装置、设备及存储介质


[0001]本专利技术实施例涉及医学数据处理领域,尤其涉及一种临床数据插补方法、装置、设备及存储介质。

技术介绍

[0002]与传统医学以经验医学为主不同,现代医学主要是循证医学,即“遵循证据的医学”,其核心思想就是医疗决策应在现有临床研究依据基础上做出。医学证据都是在相关数据集经过大量分析得到的,但由于各种原因,临床数据存在大量的缺失值,甚至是常态。这些缺失值会引起以下问题:1)、很多数据分析方法,尤其是经典统计学方法,是不支持含有缺失值的数据集分析的,这样就使临床数据可选范围大大缩小,甚至可能针对特定分析需求或假设无法分析的情况,比如1)数据集在含有缺失值的情况下,logistic和线性回归算法无法进行计算;2)、缺失值可能引起样本偏倚,尤其是对含有缺失值样本进行删除处理,使得分析结论变得不可靠、不稳定,甚至不可信,比如我们研究某一疾病的影响因素,发现年纪大的老人由于各种原因导致一些信息缺失,那么我们分析的非老年人群的数据,其结果就不可推广为全体人群,尤其是老年人群;3)、使罕见病历的临床数据更加稀缺。
[0003]综上,可靠、稳定、完整、高质量的数据才能带来准确的数据分析结果。本申请人在实现本专利技术实施例的过程中发现,现有临床医学数据插补方法多使用神经网络等算法对缺失值进行预测插补,该方法仅适用于某一类或某几类疾病的临床数据插补,不能灵活处理各种临床数据的插补,导致数据插补准确性较低。

技术实现思路

[0004]本专利技术实施例提供了一种临床数据插补方法、装置、设备及存储介质,解决了现有临床数据插补方法存在数据插补准确性较低的问题。
[0005]第一方面,本专利技术实施例提供了一种临床数据插补方法,该方法包括:
[0006]获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;
[0007]确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
[0008]对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
[0009]第二方面,本专利技术实施例还提供了一种临床数据插补装置,该装置包括:
[0010]样本获取模块,用于获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;
[0011]数据插补模块,用于确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;
[0012]分析模块,用于对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。
[0013]第三方面,本专利技术实施例还提供了一种电子设备,该电子设备包括:
[0014]一个或多个处理器;
[0015]存储装置,用于存储一个或多个程序;
[0016]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例描述的临床数据插补方法。
[0017]第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本专利技术任意实施例描述的临床数据插补方法。
[0018]本专利技术实施例提供的临床数据插补方法,通过获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。上述临床数据插补方法,针对不同的临床数据采取不同的插补处理方式,提高了插补方法的鲁棒性。通过对插补后的数据集合进行敏感性分析,根据敏感性分析结果选择最优的插补方法,提高了数据插补的准确性。
附图说明
[0019]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例一提供的一种临床数据插补方法的流程图;
[0021]图2是本专利技术实施例一提供的用于表示数据集合中各变量数量的条形图;
[0022]图3是本专利技术实施例一提供的聚类分析结果示意图;
[0023]图4是本专利技术实施例二提供的一种临床数据插补装置的结构框图;
[0024]图5是本专利技术实施例三提供的一种电子设备的结构示意图。
具体实施方式
[0025]为使本专利技术的目的、技术方案和优点更加清楚,以下将参照本专利技术实施例中的附图,通过实施方式清楚、完整地描述本专利技术的技术方案,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]实施例一
[0027]图1是本专利技术实施例一提供的一种临床数据插补方法的流程图。本实施例的技术方案适用于临床数据存在数据缺失需要进行数据插补处理的情况。该方法可以由本专利技术实施例提供的一种临床数据插补装置来执行,该装置可以采用软件和/或硬件的方式实现,并配置在电子设备处理器中应用。该方法具体包括如下步骤:
[0028]S110、获取样本数据集合,样本数据集合中的任一样本包括一个或多个变量的变量数据。
[0029]本实施例中的样本数据集合为包括至少两个样本数据的数据集合,样本数据是指患者的就诊数据。本实施例将一个患者的就诊数据作为一个样本数据。其中,患者的就诊数据包括患者的影像检查数据、血液检验数据、疾病诊断数据、常规体检数据等医院诊断项目中的一项或多项数据。
[0030]其中,变量为患者就诊数据记录表格中的字段,比如身份标识、年龄、身高、体重、血压、血红蛋白、血糖等。
[0031]在一个实施例中,确定数据集合中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种临床数据插补方法,其特征在于,包括:获取样本数据集合,所述样本数据集合中的任一样本包括一个或多个变量的变量数据;确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,并根据该当前数据插补规则完成相应变量的数据插补以得到插补后的样本数据集合,其中,每个可插补变量均设置有一个或多个设定顺序的插补规则;对插补后的样本数据集合进行敏感性分析,如果敏感性分析结果未达到设定评价阈值,则在可插补变量对应有未使用的数据插补规则时,将下一数据插补规则作为当前数据插补规则,并返回根据该数据插补规则完成相应变量的数据插补的步骤。2.根据权利要求1所述的方法,其特征在于,如果该一个或多个变量存在非可插补变量,且该非可插补变量存在一个或多个缺失值时,删除该一个或多个缺失值对应的样本数据,以更新样本数据集合。3.根据权利要求1所述的方法,其特征在于,所述确定该一个或多个变量中的一个或多个可插补变量,包括:采用相关性分析或聚类分析确定该一个或多个变量的数据缺失类型,所述数据缺失类型包括可插补变量对应的可插补类型以及非可插补变量对应的非可插补类型;将属于可插补类型的一个或多个变量作为可插补变量。4.根据权利要求1所述的方法,其特征在于,所述确定该一个或多个变量中的一个或多个可插补变量,以及该一个或多个可插补变量分别对应的当前数据插补规则,包括:确定该一个或多个变量中的一个或多个可插补变量;根据该一个或多个插补变量以及插补变量与数据插补规则之间的对应关系,确定该一个或多个可插补变量分别对应的当前数据插补规则。5.根据权利要求4所述的方法,其特征在于,所述数据插补规则包括基于设定业务系统获取规则、替代插补规则、拟合插补规则、基于患者基本信息的插补规则、二分类插补规则、随机插补规则中的一个或多个。6...

【专利技术属性】
技术研发人员:杨铭刘寒
申请(专利权)人:联仁健康医疗大数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1