一种医疗文本编码方法、装置、设备及可读存储介质制造方法及图纸

技术编号:33558766 阅读:11 留言:0更新日期:2022-05-26 22:55
本发明专利技术提供了一种医疗文本编码方法、装置、设备及可读存储介质,所述方法包括:获取第一文档集合;基于临床文档,利用词嵌入技术生成词嵌入矩阵;基于临床文档、词嵌入矩阵和卷积神经网络得到上层序列向量;基于上层序列向量和词嵌入矩阵得到每个临床文档所对应的句子向量;基于每个临床文档所对应的句子向量得到初步的分类器;基于第一文档集合和临床文档所对应的句子向量得到最终的分类器,使用最终的分类器对临床文档进行ICD编码。本发明专利技术关注了罕见疾病编码,提高了编码员对罕见病的重视。并且本发明专利技术能够自动抽取特征,不依赖手工特征,对不同医生的书写风格进行了缓和,可以减少研究时间和减少匹配错误。减少研究时间和减少匹配错误。减少研究时间和减少匹配错误。

【技术实现步骤摘要】
一种医疗文本编码方法、装置、设备及可读存储介质


[0001]本专利技术涉及数据
,具体而言,涉及一种医疗文本编码方法、装置、设备及可读存储介质。

技术介绍

[0002]目前,在临床中频繁出现的编码(我们称之为频繁编码)只占据总编码数量的很少一部分,而临床中很少出现的编码(我们称之为少样本编码)却占据了总编码数量的大部分。例如,在医学数据集MIMIC

III中除去不可见编码,可见编码有8,922个。其中,有5,386个编码只出现了1到10次。存在这种现象的原因是在临床中存在较多的罕见疾病,例如儿童早衰症等,其发病几率非常低。这对编码员的知识储备提出了巨大的要求,并且编码员也需要查阅相关资料才可以完成编码,这大大降低了编码效率,同时ICD代码的长尾分布意味着自动编码也是一个非常大的挑战。

技术实现思路

[0003]本专利技术的目的在于提供一种医疗文本编码方法、装置、设备及可读存储介质,以改善上述问题。
[0004]为了实现上述目的,本申请实施例提供了如下技术方案:一方面,本申请实施例提供了一种医疗文本编码方法,所述方法包括:获取第一文档集合,所述第一文档集合中包括至少一条临床文档;基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
[0005]第二方面,本申请实施例提供了一种医疗文本编码装置,所述装置包括获取模块、第一计算模块、第二计算模块、第三计算模块、第四计算模块和替换模块。
[0006]获取模块,用于获取第一文档集合,所述第一文档集合中包括至少一条临床文档;第一计算模块,用于基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;第二计算模块,用于基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;第三计算模块,用于基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;
第四计算模块,用于基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;替换模块,用于基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
[0007]第三方面,本申请实施例提供了一种医疗文本编码设备,所述设备包括存储器和处理器。存储器用于存储计算机程序;处理器用于执行所述计算机程序时实现上述医疗文本编码方法的步骤。
[0008]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗文本编码方法的步骤。
[0009]本专利技术的有益效果为:1、在本专利技术中,利用元网络将元知识从数据丰富的频繁ICD编码转移到数据贫乏的少样本ICD编码,解决少样本编码标注实例少的问题,并且提高了少样本ICD编码的性能。同时对于ICD编码任务,虽然卷积神经网络可以学习到文本相关语义,但是对于临床文档这种超长文本,不仅提供了潜在的有效信息,还存在大量无关的噪声数据,因此本实施例还采用标签注意力机制捕捉病历文本中与ICD编码密切相关的部分。同时利用特征表示还缓解医生书写风格不同的问题。
[0010]2、本专利技术能够自动抽取特征,不依赖手工特征,对不同医生的书写风格进行了缓和,可以减少研究时间和减少匹配错误。
[0011]本专利技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术实施例了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0013]图1是本专利技术实施例中所述的医疗文本编码方法流程示意图;图2是本专利技术实施例中所述的医疗文本编码装置结构示意图;图3是本专利技术实施例中所述的医疗文本编码设备结构示意图。
具体实施方式
[0014]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的
所有其他实施例,都属于本专利技术保护的范围。
[0015]应注意到:相似的标号或字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0016]实施例1如图1所示,本实施例提供了一种医疗文本编码方法,该方法包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。
[0017]步骤S1、获取第一文档集合,所述第一文档集合中包括至少一条临床文档;步骤S2、基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;步骤S3、基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;步骤S4、基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;步骤S5、基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;步骤S6、基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。
[0018]本实施例的目的是解决少样本ICD编码标注实例少、不同医生对病例书写风格不同的ICD自动编码误码率高的问题,同时避免对手工特征的依赖;因此,在本实施例中,利用元网络将元知识从数据丰富的频繁ICD编码转移到数据贫乏的少样本ICD编码,解决少样本编码标注实例少的问题,并且提高了少样本ICD编码的性能。同时对于ICD编码任务,虽然卷积神经网络可以学习到文本相关语义,但是对于临床文档这种超长文本,不仅提供了潜在的有效信息,还存在大量无关的噪声数据,因此本实施例还采用标签本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗文本编码方法,其特征在于,包括:获取第一文档集合,所述第一文档集合中包括至少一条临床文档;基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。2.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述临床文档,利用词嵌入技术生成词嵌入矩阵,包括:获取词嵌入维度d和预设词,d为介于100

300的正整数;提取所述临床文档中的所有词并去重,得到第一词表;用所述预设词代替所有未在所述第一词表中出现的词,得到第二词表;对所述第二词表中的每一个词随机初始化d维向量,得到所述词嵌入矩阵。3.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量,包括:将所述临床文档中的每个词转换成一个低维向量,得到输入特征矩阵,其中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示;在卷积神经网络中设置词嵌入维度、滤波器宽度和滤波器输出大小;利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息,得到所述上层序列向量。4.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量,包括:获取每个ICD编码描述;将所述ICD编码描述中所有词小写并删除停止词,得到删除后的ICD编码描述;在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量,查找后进行平均计算,得到每个ICD编码描述所对应的ICD编码描述向量;将所述上层序列向量和全部的所述ICD编码描述向量共同经过标签注意力机制,得到每个所述临床文档所对应的句子向量,所述句子向量中包含每种ICD编码的特征表示。5.一种医疗文本编码装置,其特征在于,包括:获取模块,用于获取第一文档集合,所述第一文档集合中包括至少一条临床文档;第一计算模块,用于基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;第二计算模块,用于基于所述临床文档、所述词嵌入矩阵和...

【专利技术属性】
技术研发人员:滕飞周晓敏张恩铭马征黄路非李暄
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1