当前位置: 首页 > 专利查询>朱卫国专利>正文

基于病历语义理解的诊断ICD自动编码方法及系统技术方案

技术编号:37042393 阅读:20 留言:0更新日期:2023-03-29 19:21
基于病历语义理解的诊断ICD自动编码方法及系统,该方法通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;对当前诊断原词,取得分最高的候选标签,从标准ICD10库中获取对应编码。本发明专利技术提高编码准确率;能够依据完整的病历信息完成自动化编码。完整的病历信息完成自动化编码。完整的病历信息完成自动化编码。

【技术实现步骤摘要】
基于病历语义理解的诊断ICD自动编码方法及系统


[0001]本专利技术属于病历数据处理
,具体涉及一种基于病历语义理解的诊断ICD自动编码方法及系统。

技术介绍

[0002]ICD是International Classification of Diseases(国际疾病分类)的缩写,由世界卫生组织主持编写并发布的一种疾病分类方法,是卫生信息标准体系的重要组成部分,供世界范围内的临床研究、医疗监测、卫生事业管理部门应用。
[0003]ICD是WHO国际分类家族最核心的知识库,也是众多医疗领域的标准。第一版ICD分类诞生于1893年,至今已有120多年的历史。此后它不断更新,以反映健康和医学的发展,目前采用的是第10版。完整的ICD的统计范畴涵盖了死因、疾病、伤害、症状、就诊原因、疾病的外部原因等方面,被广泛应用于临床研究、医疗监测。
[0004]现阶段,医生写的出院诊断常常会出现信息缺失,进而影响编码的准确性;当前主流的ICD编码技术,主要根据关键词匹配等浅层文本信息来完成诊断编码,忽略了语义上的匹配,导致编码的可靠性较低。

技术实现思路

[0005]为此,本专利技术提供基于病历语义理解的诊断ICD自动编码方法及系统,解决传ICD编码准确性及可靠性差的问题。
[0006]为了实现上述目的,本专利技术的第一方面提供如下技术方案:基于病历语义理解的诊断ICD自动编码方法,包括:
[0007]通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;
[0008]对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;
[0009]构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;
[0010]构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;
[0011]对当前诊断原词,取得分最高的候选标签,从标准ICD10库中获取对应编码。
[0012]作为基于病历语义理解的诊断ICD自动编码方法优选方案,通过正则表达式进行病历内容清洗,病历内容清洗包括缩写词替换、全角半角转换和指定字符转换。
[0013]作为基于病历语义理解的诊断ICD自动编码方法优选方案,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据包括:
[0014]使用预训练模型,生成具有篇章信息的问题和若干句子的字符表示;
[0015]将生成的字符表示,输入到双向循环神经网络,获得上下文句子表示;
[0016]将上下文句子表示使用MLP映射到二维,经过sigmoid函数计算当前句子是否为支撑句的得分;
[0017]对于指定片段,每个片段经过答案预测网络判断是否存在支撑句;
[0018]判断片段中句子的得分是否大于预设阈值,大于预设阈值判定为支撑句;
[0019]获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。
[0020]作为基于病历语义理解的诊断ICD自动编码方法优选方案,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选标签文本蕴含得分包括:
[0021]基于分类模型对诊断三元文本证据获取候选编码概率,取概率值最高的前k个作为候选编码标签集。
[0022]作为基于病历语义理解的诊断ICD自动编码方法优选方案,采用单标签推理,将诊断原词和每个候选编码标签的描述文本进行文本蕴含,得到候选编码标签的预测分数。
[0023]作为基于病历语义理解的诊断ICD自动编码方法优选方案,采用双标签推理,通过诊断原词和相似的两个候选编码标签进行文本蕴含,得到候选编码标签集合内部的成对比较分数。
[0024]作为基于病历语义理解的诊断ICD自动编码方法优选方案,将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数,选取得分最高的作为最终答案。
[0025]本专利技术的第二方面还提供一种基于病历语义理解的诊断ICD自动编码系统,包括:
[0026]病历信息获取模块,用于通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;
[0027]病历信息拆分清洗模块,用于对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;
[0028]支撑信息抽取模块,用于构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;
[0029]三元文本蕴含打分模块,用于构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;
[0030]诊断编码模块,用于对当前诊断原词,取得分最高的候选标签,从标准ICD10库中获取对应编码。
[0031]作为基于病历语义理解的诊断ICD自动编码系统优选方案,所述病历信息拆分清洗模块中,通过正则表达式进行病历内容清洗,病历内容清洗包括缩写词替换、全角半角转换和指定字符转换;
[0032]所述支撑信息抽取模块包括:
[0033]字符表示子模块,用于使用预训练模型,生成具有篇章信息的问题和若干句子的字符表示;
[0034]句子表示子模块,用于将生成的字符表示,输入到双向循环神经网络,获得上下文句子表示;
[0035]句子打分子模块,将上下文句子表示使用MLP映射到二维,经过sigmoid函数计算当前句子是否为支撑句的得分;
[0036]支撑句判断子模块,用于对于指定片段,每个片段经过答案预测网络判断是否存
在支撑句;判断片段中句子的得分是否大于预设阈值,大于预设阈值判定为支撑句。
[0037]诊断三元文本拼接子模块,用于获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。
[0038]作为基于病历语义理解的诊断ICD自动编码系统优选方案,所述三元文本蕴含打分模块包括:
[0039]候选编码标签集子模块,用于基于分类模型对诊断三元文本证据获取候选编码概率,取概率值最高的前k个作为候选编码标签集;
[0040]单标签推理子模块,用于采用单标签推理,将诊断原词和每个候选编码标签的描述文本进行文本蕴含,得到候选编码标签的预测分数;
[0041]双标签推理子模块,用于采用双标签推理,通过诊断原词和相似的两个候选编码标签进行文本蕴含,得到候选编码标签集合内部的成对比较分数;
[0042]排序整合子模块,用于将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数,选取得分最高的作为最终答案。
[0043]本专利技术的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或其任意可能实现方式的基于病历语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于病历语义理解的诊断ICD自动编码方法,其特征在于,包括:通过信息抽取程序从医院原始病历抽取病历信息,抽取的病历信息包括出院诊断原词数据和住院过程中诊疗数据;对抽取的病历信息进行诊断术语拆分和病历内容清洗,诊断术语拆分利用命名实体识别技术对出院诊断原词数据进行拆分;构建证据抽取模型,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据;构建基于三元文本蕴含的编码模型,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选编码标签文本蕴含得分;对当前诊断原词,取得分最高的候选标签,从标准ICD库中获取对应编码。2.根据权利要求1所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,通过正则表达式进行病历内容清洗,病历内容清洗包括缩写词替换、全角半角转换和指定字符转换。3.根据权利要求1所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,通过所述证据抽取模型抽取辅助诊断术语编码的三元文本证据包括:使用预训练模型,生成具有篇章信息的问题和若干句子的字符表示;将生成的字符表示,输入到双向循环神经网络,获得上下文句子表示;将上下文句子表示使用MLP映射到二维,经过sigmoid函数计算当前句子是否为支撑句的得分;对于指定片段,每个片段经过答案预测网络判断是否存在支撑句;判断片段中句子的得分是否大于预设阈值,大于预设阈值判定为支撑句;获取支撑句集合和诊断原词拼接成带支撑信息的诊断三元文本证据。4.根据权利要求3所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,通过所述基于三元文本蕴含的编码模型进行诊断原词和候选标签文本蕴含得分包括:基于分类模型对诊断三元文本证据获取候选编码概率,取概率值最高的前k个作为候选编码标签集。5.根据权利要求4所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,采用单标签推理,将诊断原词和每个候选编码标签的描述文本进行文本蕴含,得到候选编码标签的预测分数。6.根据权利要求5所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,采用双标签推理,通过诊断原词和相似的两个候选编码标签进行文本蕴含,得到候选编码标签集合内部的成对比较分数。7.根据权利要求6所述的基于病历语义理解的诊断ICD自动编码方法,其特征在于,将单标签的绝对分数和候选编码标签集合内部的成对比较分数加权得到每个候选编码标签最终的分数,选取得分最高的作...

【专利技术属性】
技术研发人员:朱卫国丘德来
申请(专利权)人:朱卫国
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1