System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于特征交互和多模态知识融合的医学代码预测方法及系统技术方案_技高网

基于特征交互和多模态知识融合的医学代码预测方法及系统技术方案

技术编号:40306085 阅读:7 留言:0更新日期:2024-02-07 20:51
本发明专利技术提出了一种基于特征交互和多模态知识融合的医学代码预测方法及系统,属于自然语言处理技术领域。本发明专利技术提出了一个新的联合学习框架,探索表格数据和临床笔记之间的相互依赖,以生成包含两者之间关联的表示。本发明专利技术提出一个多模态知识融合网络,将维基百科知识、表格数据、临床笔记进行融合,以提取不同类型数据之间的互补性信息。通过知识融合,不仅可以快速更好地融合不同数据的特征,还可以兼顾临床笔记和ICD代码两部分的数据特征,提升了模型的预测性能。本发明专利技术是本领域首次同时结合维基百科知识和结构化表格数据来辅助ICD编码任务并且达到很好的预测效果,有效地处理了代码之间的关联性和文本中的噪声问题。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是涉及一种基于特征交互和多模态知识融合的医学代码预测方法及系统


技术介绍

1、国际疾病分类(icd)是由世界卫生组织维护的用来表示疾病、症状、手术流程等的代码的等级分类。icd编码对于医学研究、医保报销、公共卫生统计等领域具有重要意义,它包含大约16000个与疾病、症状、病理状态和医学过程相关的独特代码,使医疗从业者能够用一种通用的语言在世界范围内交换健康信息。

2、患者的电子病历包含多种类型的数据,例如非结构化文本、半结构化文本和结构化表格数据。非结构化文本主要包括医生所做的记录、护理笔记、实验报告、测试结果和出院总结等。半结构化文本指的是用来描述医生所撰写诊断的结构化短语和非结构化句子的组合。结构化表格数据包括处方和临床测量数据,例如生命体征、实验室测量和微生物学测试结果等。

3、目前,人工编码员一般根据患者电子病历中的既往病史、用药情况、出院状态、现病史以及实验室测量数据来为患者的出院总结分配icd代码。然而,电子病历信息量巨大,对编码员的专业要求高,并且手动分配代码费时费力,并且容易出错。

4、随着机器学习和深度学习应用的逐渐成熟,深度学习模型已被广泛应用于icd代码的自动预测。同时,一些额外的辅助知识能够给模型提供更加全面的信息,帮助模型实现更好的预测性能,例如维基百科外部知识和结构化表格数据。然而,如何合理有效地使用维基百科外部知识和结构化表格数据仍然具有挑战性,主要体现在以下三个方面:

5、1、医学数据是自然异构的,数据类型有文本、数字、类别值以及时间序列等。

6、2、额外的辅助知识存在显著差异,维基百科知识和结构化表格数据具有截然不同的数据分布情况,需要对这两者进行复杂的预处理。

7、3、特征提取困难,由于表格数据具有较强的结构性,很难对其直接提取特征。


技术实现思路

1、有鉴于此,本专利技术提出了一种基于特征交互和多模态知识融合的医学代码预测方法及系统,目的是能够有效整合多种数据来提供更加精准的icd预测。

2、本专利技术采用的技术方案如下:

3、本专利技术提供了一种基于特征交互和多模态知识融合的医学代码预测方法,所述方法包括:

4、对电子病历中的临床笔记、表格数据和维基百科知识进行预处理;

5、通过bi-lstm对所述临床笔记和所述维基百科知识进行文本表示;采用树的方法对所述表格数据进行树特征表示;

6、构造医学代码预测模型,所述模型通过联合学习将临床笔记的文本表示和表格数据的树特征表示进行初步融合,生成联合表示;再将联合表示和维基百科的文本表示融合,形成最终用来预测的多模态融合表示;利用所述多模态融合表示得到医学代码的预测结果;所述联合学习包括:使用标签注意力学习标签特定的表示;使用自注意力用学习临床笔记和表格数据中与标签特定表示最相关的部分;特征融合用来结合两者之间的相关表示;

7、利用所述医学代码预测模型进行医学代码预测。

8、进一步地,通过bi-lstm对所述临床笔记和所述维基百科知识进行文本表示,包括:

9、对文本数据进行向量化操作,形成词嵌入;通过词嵌入映射为嵌入向量,并将这些嵌入向量连接为嵌入矩阵,通过bi-lstm计算出文本表示。

10、进一步地,采用树的方法对所述表格数据进行树特征表示,包括:

11、按表格数据的类型对表格数据进行处理;

12、将处理好的数据构建为决策树的形式,以icd代码为目标,采用一对多的策略来训练决策树;每棵树的叶节点都是表格数据的一种表示,采用one-hot向量来表示叶节点;按照这种方法得到的基于树的特征是这些one-hot向量连接起来的一个多热向量;

13、将得到的多热向量投影到嵌入矩阵中来构造叶嵌入,还根据代码数量来构建树嵌入矩阵。

14、进一步地,按表格数据的类型对表格数据进行处理,包括:

15、对于时间序列数据,计算这些数据的均值和最值;

16、对于医院检测数据,采用布尔值来表明检测数据是否存在异常;

17、对于患者个人数据,不做任何变动。

18、进一步地,通过联合学习将临床笔记和表格数据进行初步融合,包括:

19、利用标签注意力计算临床笔记和结构化表格数据融合后的注意力矩阵,生成标签注意力矩阵;

20、使用自注意力机制来学习临床笔记中与医学代码最相关的上下文片段,生成自注意力矩阵;

21、确定分别表示标签注意力表示和自注意力表示对模型的贡献程度的权重系数;

22、将两个权重向量与标签注意力表示和自注意力表示做矩阵乘法后相加,得到特征融合后的联合表示。

23、进一步地,将联合表示和维基百科的文本表示融合,形成最终用来预测的多模态融合表示;包括:

24、将维基百科的文本表示rw映射为隐藏表示ω,通过sigmoid激活函数激活;

25、将隐藏表示ω通过一个线性层wr和sigmoid激活层,处理成能够与联合表示rj结合的形式rs;

26、将rj和rs进行多模态知识融合,得到最终的多模态融合知识表示ro。

27、进一步地,所述模型的训练目标是最小化预测结果与真实标签之间的二元交叉熵损失。

28、本专利技术还提供了一种基于特征交互和多模态知识融合的医学代码预测系统,包括:

29、数据预处理模块,用于解析电子病历中临床笔记中的文本内容,构建词表,并将句子向量化;

30、文本编码模块,通过bi-lstm对所述临床笔记和所述维基百科知识进行文本表示;

31、表格特征构建模块,采用树的方法对所述表格数据进行树特征表示;

32、联合学习模块,使用标签注意力学习标签特定的表示;使用自注意力用学习临床笔记和表格数据中与标签特定表示最相关的部分;特征融合用来结合两者之间的相关表示;

33、多模态知识融合模块,通过联合学习将临床笔记和表格数据进行初步融合,生成文本向量与基于树特征的特殊表示;再将联合学习的特征表示和维基百科表示融合,形成最终用来预测的多模态融合表示;利用所述多模态融合表示得到医学代码的预测结果。

34、与现有技术相比,本专利技术的有益效果是:

35、1)本专利技术提出了一种新的联合学习框架,探索表格数据和临床笔记之间的相互依赖,以生成包含两者之间关联的表示。

36、2)本专利技术通过构建基于树的特征,对表格数据实现了很好的特征提取,同时还引入了icd代码的层级结构,使模型的预测更具可解释性。

37、3)本专利技术提出了一个多模态知识融合网络,将维基百科知识、表格数据、临床笔记进行融合,以提取不同类型数据之间的互补性信息。通过知识融合,不仅可以快速更好地融合不同数据的特征,还可以兼顾临床笔记和icd代码两部分的数据特征,提升了模型的预测性能。

本文档来自技高网...

【技术保护点】

1.一种基于特征交互和多模态知识融合的医学代码预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过Bi-LSTM对所述临床笔记和所述维基百科知识进行文本表示,包括:

3.根据权利要求2所述的方法,其特征在于,采用树的方法对所述表格数据进行树特征表示,包括:

4.根据权利要求3所述的方法,其特征在于,按表格数据的类型对表格数据进行处理,包括:

5.根据权利要求1所述的方法,其特征在于,通过联合学习将临床笔记和表格数据进行初步融合,包括:

6.根据权利要求5所述的方法,其特征在于,将联合表示和维基百科的文本表示融合,形成最终用来预测的多模态融合表示;包括:

7.根据权利要求6所述的方法,其特征在于,所述模型的训练目标是最小化预测结果与真实标签之间的二元交叉熵损失。

8.一种基于特征交互和多模态知识融合的医学代码预测系统,其特征在于,包括:

【技术特征摘要】

1.一种基于特征交互和多模态知识融合的医学代码预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过bi-lstm对所述临床笔记和所述维基百科知识进行文本表示,包括:

3.根据权利要求2所述的方法,其特征在于,采用树的方法对所述表格数据进行树特征表示,包括:

4.根据权利要求3所述的方法,其特征在于,按表格数据的类型对表格数据进行处理,包括:

5.根...

【专利技术属性】
技术研发人员:张益嘉王世龙李晓博
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1