【技术实现步骤摘要】
一种医疗文本编码方法、装置、设备及可读存储介质
[0001]本专利技术涉及数据
,具体而言,涉及一种医疗文本编码方法、装置、设备及可读存储介质。
技术介绍
[0002]目前,在临床中频繁出现的编码(我们称之为频繁编码)只占据总编码数量的很少一部分,而临床中很少出现的编码(我们称之为少样本编码)却占据了总编码数量的大部分。例如,在医学数据集MIMIC
‑
III中除去不可见编码,可见编码有8,922个。其中,有5,386个编码只出现了1到10次。存在这种现象的原因是在临床中存在较多的罕见疾病,例如儿童早衰症等,其发病几率非常低。这对编码员的知识储备提出了巨大的要求,并且编码员也需要查阅相关资料才可以完成编码,这大大降低了编码效率,同时ICD代码的长尾分布意味着自动编码也是一个非常大的挑战。
技术实现思路
[0003]本专利技术的目的在于提供一种医疗文本编码方法、装置、设备及可读存储介质,以改善上述问题。
[0004]为了实现上述目的,本申请实施例提供了如下技术方案:一方面,本申请实 ...
【技术保护点】
【技术特征摘要】
1.一种医疗文本编码方法,其特征在于,包括:获取第一文档集合,所述第一文档集合中包括至少一条临床文档;基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量;基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量;基于每个所述临床文档所对应的句子向量得到初步的分类器,所述初步的分类器中包括分类器权重;基于所述第一文档集合和所述临床文档所对应的句子向量得到新的分类器权重,用新的分类器权重替换所述分类器权重,得到最终的分类器,使用所述最终的分类器对临床文档进行ICD编码。2.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述临床文档,利用词嵌入技术生成词嵌入矩阵,包括:获取词嵌入维度d和预设词,d为介于100
‑
300的正整数;提取所述临床文档中的所有词并去重,得到第一词表;用所述预设词代替所有未在所述第一词表中出现的词,得到第二词表;对所述第二词表中的每一个词随机初始化d维向量,得到所述词嵌入矩阵。3.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述临床文档、所述词嵌入矩阵和卷积神经网络得到上层序列向量,包括:将所述临床文档中的每个词转换成一个低维向量,得到输入特征矩阵,其中,将所述临床文档中的每个词的向量由所述词嵌入矩阵中对应词的向量来进行表示;在卷积神经网络中设置词嵌入维度、滤波器宽度和滤波器输出大小;利用设置好的卷积神经网络学习所述输入特征矩阵的语义信息,得到所述上层序列向量。4.根据权利要求1所述的医疗文本编码方法,其特征在于,基于所述上层序列向量和所述词嵌入矩阵得到每个所述临床文档所对应的句子向量,包括:获取每个ICD编码描述;将所述ICD编码描述中所有词小写并删除停止词,得到删除后的ICD编码描述;在所述词嵌入矩阵中查找所述删除后的ICD编码描述中所有词对应的词嵌入向量,查找后进行平均计算,得到每个ICD编码描述所对应的ICD编码描述向量;将所述上层序列向量和全部的所述ICD编码描述向量共同经过标签注意力机制,得到每个所述临床文档所对应的句子向量,所述句子向量中包含每种ICD编码的特征表示。5.一种医疗文本编码装置,其特征在于,包括:获取模块,用于获取第一文档集合,所述第一文档集合中包括至少一条临床文档;第一计算模块,用于基于所述临床文档,利用词嵌入技术生成词嵌入矩阵;第二计算模块,用于基于所述临床文档、所述词嵌入矩阵和...
【专利技术属性】
技术研发人员:滕飞,周晓敏,张恩铭,马征,黄路非,李暄,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。