一种基于深度学习和集成分类的智能辅助诊断方法技术

技术编号:24253228 阅读:50 留言:0更新日期:2020-05-23 00:28
一种基于深度学习和集成分类的智能辅助诊断方法。通过命名实体识别和关系抽取,准确提取出了主诉和现病史中的实体和属性,去除了无效信息。在标签主题模型中,加入了特征词的位置权重,提高了关键位置特征词的占比。在多层感知机模型的损失函数中加入了调整参数,解决样本分布不均匀造成的问题。针对相同样本,不同的分类方法得到的分类边界不同,故采用堆叠集成方法将标签主题模型和多层感知机模型进行了集成,提升了疾病的预测准确度。

An intelligent aided diagnosis method based on deep learning and integrated classification

【技术实现步骤摘要】
一种基于深度学习和集成分类的智能辅助诊断方法
本专利技术涉及医疗信息化
及人工智能
,设计了一种基于深度学习和集成分类的智能辅助诊断方法。
技术介绍
随着信息技术和互联网技术的高速发展,在医院信息化、数字化建设中起到核心作用的电子病历,在不断地优化和改善。电子病历中包含了病患症状描述信息,可以辅助医生在面对具有相似症状的患者时,快速作出病情的初步诊断。这对于疑难杂症的初诊或者急症病患的快速查因具有重要的指导意义,同时也有利于通过共享医生的诊疗经验,提高医生的诊断能力。面对大量的医疗电子病历文本数据,发掘其中有价值的症状与诊断结论之间的关联规律,可辅助相关医务人员提高临床诊疗的效率。临床辅助决策大多基于临床指南等医学知识,并根据这些知识转换成的规则提供决策支持服务,然而维护和更新知识库需要巨大的投入和消耗。随着人工智能技术的发展,通过对大规模数据的文本挖掘,可以不断发现新的知识,得到症状和诊断的相关性。临床辅助决策应用于临床实践还有很多问题有待解决。首先需要能够准确提取出病历文本中的症状体征等命名实体,而信息的提取需要命名实体本文档来自技高网...

【技术保护点】
1.一种深度学习和集成分类的智能辅助诊断方法,其特征在于包括模型学习与模型使用两部分,具体的模型学习采用以下步骤:/n(1.1)获取住院记录中的入院记录数据,入院记录中包含了年龄、性别、主诉、现病史、既往史,主诊断等信息;利用命名实体识别和关系抽取技术提取相应实体和实体的属性;构建字向量的高维语义表示,采用双向Transformer作为编码器,基于注意力机制来对一段文本进行建模;采用图神经网络得到实体关系,采用BIOES方案来进行实体标注,其中B标签表示标注实体最开始的一个字符,I标签表示标注实体的中间部分的字符,E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表...

【技术特征摘要】
1.一种深度学习和集成分类的智能辅助诊断方法,其特征在于包括模型学习与模型使用两部分,具体的模型学习采用以下步骤:
(1.1)获取住院记录中的入院记录数据,入院记录中包含了年龄、性别、主诉、现病史、既往史,主诊断等信息;利用命名实体识别和关系抽取技术提取相应实体和实体的属性;构建字向量的高维语义表示,采用双向Transformer作为编码器,基于注意力机制来对一段文本进行建模;采用图神经网络得到实体关系,采用BIOES方案来进行实体标注,其中B标签表示标注实体最开始的一个字符,I标签表示标注实体的中间部分的字符,E标签表示标注实体最后一个字符,S标签表示一个字符单独构成一个标注实体,O标签表示非标注实体字符;标注实体类型标签主要有:身体部位(B)、症状体征(Z)、体格指标(T)、方位(W)、疾病(D)、样本(Y)、变化描述(C)、属性形状(S)、诱因(R)、时间(Ti)程度(Dg),其中症状或体征的标注实体类型前面可以加–号,以表示该患者不具有该症状或体征,实体之间的关系采用有序对的方式来表示;
在主诉和现病史中获取症状和属性的方法步骤如下:
步骤1:采用命名实体和关系抽取技术,提取出主诉和现病史中的实体,标记出否定症状;
步骤2:以身体部位、症状体征、体格指标、样本作为枢轴实体,确定枢轴实体的属性;
步骤2.1围绕身体部位实体,提取身体部位的方位,症状属性;
步骤2.2围绕症状体征实体,提取时间、样本、程度、变化描述及诱因属性;
步骤2.3围绕体格指标实体,提取变化描述及诱因属性;
步骤2.4围绕样本实体,提取属性形状及诱因属性;
步骤3:对于提取的实体及属性,进行合并和去重处理;
(1.2)利用知识库对医生的输入诊断和症状进行标准化
对输入的诊断数据和症状数据进行标准化输出,包含诊断标准知识库和症状标准知识库,其中诊断标准知识库采用ICD-10编码;医学领域概念节点与其他的医学领域概念节点连接,每个医学领域概念节点又与自身的病种概念表现形成节点连接;
知识库中主要包括等价关系和上下位关系;
(1.3)利用带标签的主题模型进行分类,预测疾病
疾病诊断可看作样本的主题;在主题模型(LDA)的基础上,增加了一层标签集,将主题与类别标签一一映射,可以利用人工在文档上的标签标记,将其应用于病历文本多分类;标签主题模型在训练过程中,主题会偏向在文本中出现频数高的词,通过对病历文本分析发现,主诉中描述了患者的主要症状,现病史是对症状表达内容的进一步补充,针对上述问题,根据特征词在文本中的位置,特征词对类别贡献度构造权值;
该模型中的符号定义如下:
D是m篇样本文档组成的矩阵D={d1,d2,...,dm},dm表示文档第m篇文档,文档d是由n个词组成的向量d={w1d,w2d,...,wnd},元素wnd表示文档d中的第n个词,类别C是文档集合类别向量C={1,2,...,c},表示文档分为c组类别,W是目标文档的词向量空间,模型参数α是文档主题分布的狄利克雷参数,按类别分为C组,α={α1,α2,...,αc},向量αc的元素αck表示类别c的第k个主题的先验概率;模型参数β是主题词语分布相关的狄利克雷超参数,按类别分为C组;β={β1,β2,...,βc},向量βc的元素βcij表示类别c的第i个主题生成词j的概率,模型参数θ是目标文档在主题上的分布,也按照类别分为c组;
(1.4)标签主题模型的训练步骤:
步骤1对训练集文本进行处理,初始化主题和词变量矩阵,对于主题向量K∈{1,2,...,k},生成狄利克雷先验概率矩阵β={βk,1,βk,...

【专利技术属性】
技术研发人员:樊昭磊吴军杨万春张伯政孙钊
申请(专利权)人:山东众阳健康科技集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1