遗传代谢病的辅助诊断预测方法、装置、设备及介质制造方法及图纸

技术编号:38686361 阅读:15 留言:0更新日期:2023-09-02 22:59
本申请提供了一种遗传代谢病的辅助诊断预测方法、装置、设备及介质,首先通过第一层模型进行阳性预测,当预测为阳性时,采用第二层模型对阳性的类型进行预测;当利用第一层模型预测为阴性或指标异常时,不再对阴性或指标异常样本做进一步处理。通过构建两层模型大大提高了预测的准确度,且第一层模型和第二层模型在训练的过程中采用SHAP特征选择模型辅助进行特征的选择,使得特征的选择更优,从而提高了模型预测的准确度和稳定性,另外,SHAP特征选择模型可用于分析得到每个特征对应的贡献度,基于预测结果和每个特征对应的贡献度对结果进行可视化解释,从而实现了可视化展示参数(特征)对于疾病的作用机制,提高了模型的可信度。度。度。

【技术实现步骤摘要】
遗传代谢病的辅助诊断预测方法、装置、设备及介质


[0001]本申请涉及医疗数据处理
,特别涉及为一种遗传代谢病的辅助诊断预测方法、装置、设备及介质。

技术介绍

[0002]遗传代谢病是指遗传物质突变导致与蛋白质,脂肪等物质代谢相关的酶或者转运蛋白缺陷。它是危害儿童生命、影响儿童体格以及智利发育的先天性遗传疾病。根据临床表现及时发现并治疗是避免患病儿童身心产生不可逆损伤的重要临床需求之一。
[0003]目前临床上使用串联质谱检测技术来检测多种遗传代谢病,针对质谱检测结果的解读,传统人工判别方式是对单一指标做分析,工作量大且cutoff值(用于衡量的阈值)不明确,假阳性高同时有一定的假阴性率。同时,对遗传代谢罕见病的诊断,缺少权威标准的诊断指南,诊断水平受医疗从业人员专业背景和经验的制约。在这样的背景下,大范围推广串联质谱技术面临挑战。
[0004]随着医疗信息化时代的演进,大数据背景下的人工智能算法给质谱新生儿遗传代谢病辅助诊断带来了新机遇。临床医学开始使用统计学方法进行遗传代谢病诊断分析,然而对多病种的判别正确率方面不能达到令人满意的程度。C L I R系统是美国MAYO诊所开发的一款基于云服务的智能化质谱数据诊断分析平台,该平台技术不透明,且要求共享健康隐私数据,使得技术壁垒和敏感信息管控方面产生隐忧,且目前的模型无法展示参数的作用机制,导致模型可信度低。
[0005]综上所述,国际医疗数据敏感性的限制且国内质谱遗传代谢病大数据分析平台尚不完善。智能识别解读遗传代谢疾病,成为了解决新生儿早筛及遗传代谢病诊断的技术的重要而紧迫的任务。

技术实现思路

[0006]基于上述提出的模型准确率低且无法展示参数(特征)对于疾病的作用机制的问题,提出了一种遗传代谢病的辅助诊断预测方法、装置、计算机设备及存储介质。
[0007]第一方面,本专利技术提供一种遗传代谢病的辅助诊断预测方法,包括:
[0008]获取待预测的样本数据,所述待预测的样本数据包括:尿有机酸质谱数据;
[0009]将所述待预测的样本数据作为第一层模型的输入,所述第一层模型用于预测样本是否为阳性,若为阳性,则将所述待预测的样本数据作为第二层模型的输入,所述第二层模型中包括多个判别器,每个判别器对应一种阳性类型,所述第二层模型用于综合所述多个判别器的输出结果给出预测结果,所述第一层模型和所述第二层模型的训练过程中采用SHAP特征选择模型辅助进行特征的选择,所述SHAP特征选择模型用于分析得到每个特征对应的贡献度;
[0010]获取所述第二层模型输出的预测结果;
[0011]基于所述预测结果和所述每个特征对应的贡献度进行可视化结果展示,所述可视
化结果展示包括:综合特征展示、模型可信性展示和可视化推理展示。
[0012]第二方面,本专利技术提供一种遗传代谢病的辅助诊断预测装置,包括:
[0013]第一获取模块,用于获取待预测的样本数据,所述待预测的样本数据包括:尿有机酸质谱数据;
[0014]预测模块,用于将所述待预测的样本数据作为第一层模型的输入,所述第一层模型用于预测样本是否为阳性,若为阳性,则将所述待预测的样本数据作为第二层模型的输入,所述第二层模型中包括多个判别器,每个判别器对应一种阳性类型,所述第二层模型用于综合所述多个判别器的输出结果给出预测结果,所述第一层模型和所述第二层模型的训练过程中采用SHAP特征选择模型辅助进行特征的选择,所述SHAP特征选择模型用于分析得到每个特征对应的贡献度;
[0015]第二获取模块,用于获取所述第二层模型输出的预测结果;
[0016]可视化模块,用于基于所述预测结果和所述每个特征对应的贡献度进行可视化结果展示,所述可视化结果展示包括:综合特征展示、模型可信性展示和可视化推理展示。
[0017]第三方面,本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述所述方法的步骤。
[0018]第四方面,本专利技术提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述所述方法的步骤。
[0019]上述遗传代谢病的辅助诊断预测方法,首先通过第一层模型进行阳性预测,当预测为阳性时,采用第二层模型对阳性的类型进行预测,通过构建两层模型大大提高了预测的准确度,且第一层模型和第二层模型在训练的过程中采用SHAP特征选择模型辅助进行特征的选择,使得特征的选择更优,从而提高了模型预测的准确度和稳定性,另外,S HA P特征选择模型可用于分析得到每个特征对应的贡献度,基于预测结果和每个特征对应的贡献度对结果进行可视化解释,从而实现了可视化展示参数(特征)对于疾病的作用机制,提高了模型的可信度。
附图说明
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]其中:
[0022]图1为一个实施例中遗传代谢病的辅助诊断预测方法的流程示意图;
[0023]图2为一个实施例中遗传代谢病的辅助诊断预测方法的预测示意图;
[0024]图3为一个实施例中遗传代谢病的辅助诊断预测方法的整体流程示意图;
[0025]图4为一个实施例中MMA阳性类型的特征分析图;
[0026]图5为一个实施例中遗传代谢病的辅助诊断预测装置的系统示意图;
[0027]图6为一个实施例中计算机设备的内部结构图。
具体实施方式
[0028]此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0029]下面将结合本申请的实施例中的附图,对本申请的实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、终端、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实时的关系或者顺序。
[0031]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种遗传代谢病的辅助诊断预测方法,其特征在于,包括:获取待预测的样本数据,所述待预测的样本数据包括:尿有机酸质谱数据;将所述待预测的样本数据作为第一层模型的输入,所述第一层模型用于预测样本是否为阳性,若为阳性,则将所述待预测的样本数据作为第二层模型的输入,所述第二层模型中包括多个判别器,每个判别器对应一种阳性类型,所述第二层模型用于综合所述多个判别器的输出结果给出预测结果,所述第一层模型和所述第二层模型的训练过程中采用SHAP特征选择模型辅助进行特征的选择,所述SHAP特征选择模型用于分析得到每个特征对应的贡献度;获取所述第二层模型输出的预测结果;基于所述预测结果和所述每个特征对应的贡献度进行可视化结果展示,所述可视化结果展示包括:综合特征展示、模型可信性展示和可视化推理展示。2.根据权利要求1所述的方法,其特征在于,所述第一层模型的训练过程如下:获取原始样本集,所述原始样本集为收集到的原始尿有机酸质谱数据;对所述原始样本集中的样本进行预处理,得到第一训练数据集;基于所述第一训练数据集对所述第一层模型进行训练,且采用所述SHAP特征选择模型辅助进行特征的优化选择,得到训练好的第一层模型。3.根据权利要求2所述的方法,其特征在于,所述对所述原始样本集中的样本进行预处理,得到第一训练数据集,包括:对所述原始样本集中的样本依次进行缺失值填充处理、年龄筛选处理、特征分布校验处理、归一化处理得到预处理数据集;基于所述预处理数据集中的目标样本数量对非目标样本进行欠采样处理,以使得目标样本和非目标样本的数量处于均衡,得到分布均衡的训练数据集。4.根据权利要求3所述的方法,其特征在于,所述第二层模型的训练过程如下:获取所述预处理数据集中的目标样本作为所述第二层模型的第二训练数据集;基于所述第二训练数据集中的主导样本数量对非主导样本进行过采样处理,以得到均衡的第二训练数据集;基于所述均衡的第二训练数据集对所述第二层模型进行训练,且采用所述SHAP特征选择模型辅助进行特征的优化选择,得到训练好的第二层模型。5.根据权利要求4所述的方法,其特征在于,所述基于所述均衡的第二训练数据集对所述第二层模型进行训练,且采用所述SHAP特征选择模型辅助进行特征的优化选择,得到训练好的第二层模型,包括:所述第二层模型的内部基于Huber权重函数采用级联权重计算第二层模型中各个子判别器的权重;基于所述各个子判别器的权重进行加权求和确定所述第二层模型的输出结果。6.根据权利要求5所述的方法,其特征在于,所述第二层模型的内部基于Huber权重函数采用级联权重计算第二层模型中各个子判别器的权重,包括:采用基于Huber权重函数来动态控制第二层模型中各个子判别器的权重,Huber权重函数表示如下:
其中θ
i
为第i个子判别器的权重惩罚因子,b为可调参数,|μ
i
|为样本x
i
的标准化残差:r
i
为第i个样本预测值和测量值之间的残差,为鲁棒尺度,MAR=med(|r

mend(r
i
)|)代表绝对剩余中位数,med(
·
)为中位数函数;级联权重计算公式为:loss=||Y
i

θ
i
w
i
x
i
||2‑<...

【专利技术属性】
技术研发人员:朱敏赵蓓蓓高思远佘旭辉李菁陈秀如倪周刘畅李映华梁小丹梁耀铭
申请(专利权)人:广州金域医学检验集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1