一种基于疾病二分类器的辅助诊断模型的诊断方法技术

技术编号:29931596 阅读:17 留言:0更新日期:2021-09-04 19:00
本发明专利技术公开了一种基于疾病二分类器的辅助诊断模型的诊断方法,包括如下步骤:S1:数据预处理;S2:模型训练;S3:诊断预测。本发明专利技术将诊断预测定义为文本分类任务,即对于一个输入的患者EHR,提取其中的主诉,现病史,影像学等信息,通过训练多个疾病的二分类器(BiLSTM+Self

【技术实现步骤摘要】
一种基于疾病二分类器的辅助诊断模型的诊断方法


[0001]本专利技术属于医学
,具体涉及一种基于疾病二分类器的辅助诊断模型的诊断方法。

技术介绍

[0002]随着医疗信息化的发展,电子病历(EHR)的数量和规模不断增加,形成了一个巨大的电子数据库,综合了各种各样的临床信息。因此,利用人工智能方法挖掘EHR数据中的信息已经成为了潜在的有力工具,有助于疾病诊断和管理。作为辅助医生进行临床决策的一个工具,辅助诊断利用机器学习技术从EHR文本中提取患者临床相关信息(主诉,现病史,影像学等),模拟医生的临床推理,以准确预测患者的诊断。
[0003]辅助诊断可视作自然语言处理(NLP)领域的一个任务,相当于一个文本多标签分类问题(输入患者的电子病历,输出患者对应的多个诊断标签),因此目前的辅助诊断模型主要基于多标签分类模型。但多标签分类模型存在类标数量不确定,以及类标之间关系模糊(比如一些疾病之间难以区分)的问题。针对以上的问题,我们提出将一个多标签分类问题转换为多个二分类问题。

技术实现思路

[0004]本专利技术的目的在于提供一种基于疾病二分类器的辅助诊断模型的诊断方法,将一个多标签分类问题转换为多个二分类问题,对于每个疾病,利用BERT+GMM选择合适的负样本,训练多个疾病的二分类器,在进行预测的时候,将患者EHR依次通过这些分类器,将每个分类器输出的标签进行综合得到最终的多标签诊断预测结果,以解决上述
技术介绍
中所提出的问题。
[0005]为实现上述目的,本专利技术提供以下技术方案:一种基于疾病二分类器的辅助诊断模型的诊断方法,其结构要点在于:包括如下步骤:S1:数据预处理,电子病历数据包含完整的临床信息,对电子病历数据进行预处理,形成样本数据集;S2:模型训练:S2.1:对于任意一种个疾病,将该疾病的样本作为分类模型的正样本,并通过BERT+GMM的方式筛选合适的负样本,将样本的临床信息的特征合并,作为模型的输入;S2.2:将原始文本输入词嵌入层,得到词向量;S2.3:将词向量输入双向长短期记忆网络,得到隐状态表示;S2.4:将隐藏状态输入自注意力层,得到整个文本的表示,并通过全连接层输出预测结果;S2.5:模型的输出为softmax之后的结果,即输出是该疾病以及不是该疾病的概率;S3:诊断预测,训练好多个疾病的二分类器之后,对于一个新输入的患者EHR文本,
分别通过这些二分类器,每个二分类器都会预测该患者是否患有该疾病,将每个二分类器的预测结果进行合并,得到患者最终的诊断预测结果。
[0006]作为优选的,步骤S1中的临床信息包括现病史、体格检查和影像学描述。
[0007]作为优选的,在步骤S1中,首先需要从临床信息中去除与诊断结果相关的描述,再对患者的出院诊断做标准化处理。
[0008]与现有技术相比,本专利技术将诊断预测定义为文本分类任务,即对于一个输入的患者EHR,提取其中的主诉,现病史,影像学等信息,通过训练多个疾病的二分类器(BiLSTM+Self

Attention模型)预测患者是否患有这些疾病,最终得到患者诊断的预测,以辅助医生进行之后的决策。
附图说明
[0009]图1为本专利技术中BERT提取句子特征的示意图;图2为本专利技术BiLSTM与Self

Attention的结构示意图;图3为本专利技术模型架构的结构示意图;图4为本专利技术实施例的结果对比图。
具体实施方式
[0010]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。
[0011]请参阅图1

3,本专利技术提供一种技术方案,一种基于疾病二分类器的辅助诊断模型的诊断方法,包括如下步骤:S1:数据预处理,电子病历数据包含完整的临床信息,对电子病历数据进行预处理,形成样本数据集;S2:模型训练:S2.1:对于任意一种个疾病,将该疾病的样本作为分类模型的正样本,并通过BERT+GMM的方式筛选合适的负样本,将样本的临床信息的特征合并,作为模型的输入;S2.2:将原始文本输入词嵌入层(Embedding),得到词向量;S2.3:将词向量输入双向长短期记忆网络(BiLSTM),得到隐状态表示;S2.4:将隐藏状态输入自注意力层(Self

Attention),得到整个文本的表示,并通过全连接层输出预测结果;S2.5:模型的输出为softmax之后的结果,即输出是该疾病以及不是该疾病的概率;S3:诊断预测,训练好多个疾病的二分类器之后,对于一个新输入的患者EHR文本,
分别通过这些二分类器,每个二分类器都会预测该患者是否患有该疾病,将每个二分类器的预测结果进行合并,得到患者最终的诊断预测结果。
[0012]其中,在本实施例中,所述的步骤S1中的临床信息包括现病史、体格检查和影像学描述。
[0013]其中,在本实施例中,在所述的步骤S1中,首先需要从临床信息中去除与诊断结果相关的描述,这种描述显然不能作为诊断依据;再对患者的出院诊断做标准化处理。因为不同医生对于同一种疾病,给出的诊断表述可以是多样的。如果不对这些诊断进行合并,会导致标签空间过大,严重影响模型的分类性能。
[0014]实施例:挑选的六种呼吸疾病为例:肺真菌感染、肺尘埃沉着病、肺肉芽肿、放射性肺炎、支气管结核、慢性鼻窦炎。
[0015]模型训练:对上述提到的六种呼吸疾病(肺真菌感染、肺尘埃沉着病、肺肉芽肿、放射性肺炎、支气管结核、慢性鼻窦炎)的患者,将其现病史、体格检查、影像学描述等特征合并作为其总体描述。这里以训练肺肉芽肿的二分类器为例,首先将所有诊断为“肺肉芽肿”的患者作为正样本,负样本为患有另外5种疾病的所有患者,然后再进行下一步筛选。
[0016]首先,利用BERT生成这些样本的表示,然后利用GMM对这些样本进行聚类。这里设定聚类个数的范围为3

20,通过计算AIC指标作为衡量标准确定最佳的聚类个数。假设这里样本被分为5个簇,而患有肺肉芽肿的患者在这5个簇之中的占比分别为16%、2%、1%、4%、9%。正样本在簇2,3,4中占比最低,说明在这些簇之中的负样本样本最不容易与正样本相混淆,其中的负样本与正样本区分度更高。因此,将属于这3个簇中的负样本筛选出来,作为最终的负样本。
[0017]诊断预测:患者A主诉:无咳痰,无体重下降,无发热,无胸痛,咳嗽,无咯血。
[0018]现病史:患本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于疾病二分类器的辅助诊断模型的诊断方法,其特征在于:包括如下步骤:S1:数据预处理,电子病历数据包含完整的临床信息,对电子病历数据进行预处理,形成样本数据集;S2:模型训练:S2.1:对于任意一种个疾病,将该疾病的样本作为分类模型的正样本,并通过BERT+GMM的方式筛选合适的负样本,将样本的临床信息的特征合并,作为模型的输入;S2.2:将原始文本输入词嵌入层,得到词向量;S2.3:将词向量输入双向长短期记忆网络,得到隐状态表示;S2.4:将隐藏状态输入自注意力层,得到整个文本的表示,并通过全连接层输出预测结果;S2.5:模型的输出为softmax之后的结果,...

【专利技术属性】
技术研发人员:叶方全陈逸龙
申请(专利权)人:重庆鹏康大数据有限公司广州天鹏计算机科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1