中文医疗命名实体识别方法、系统、存储介质和设备技术方案

技术编号:27936788 阅读:19 留言:0更新日期:2021-04-02 14:17
本发明专利技术属于中文医疗命名实体识别技术领域,提供了一种中文医疗命名实体识别方法、系统、存储介质和设备。其中,中文医疗命名实体识别方法包括获取临床文本数据;将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;基于多图的命名实体识别模型包括多图网络和LSTM‑CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM‑CRF模型,由LSTM‑CRF模型输出识别结果。其提高了中文医疗命名实体识别准确性。

【技术实现步骤摘要】
中文医疗命名实体识别方法、系统、存储介质和设备
本专利技术属于中文医疗命名实体识别
,尤其涉及一种中文医疗命名实体识别方法、系统、存储介质和设备。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。命名实体识别是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。医疗命名实体识别从医生的治疗记录中识别疾病、症状、治疗等实体。医疗命名实体识别是电子病历语义结构化的基础和关键,其任务是从电子病历的医疗文本中识别出不同的实体,如疾病、症状、治疗、药物、手术和解析部位等,为后续的关系抽取、实体连接、知识图谱构建等工作提供重要的支持。中文命名实体识别对临床实践和研究中具有广泛的实用价值,对其研究具有非常重要的意义。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:中文的医疗实体识别与英文的相比,存在诸多难点,挑战更大,目前未解决的难题更多。例如中文医疗文本具有予以提取不完整,分割错误和语义歧义等问题。具体来说,中文医疗文本语义信息,例如药物和临床疾病的诊断记录,很难提取完整,因为中文医疗文本的语义信息以不同的形式展现,例如字和词,如果仅采用基于字的分割来提取语义信息,虽然方法简单,并且不会出现单词边界划分错误,但是这种方法会缺失语义信息,也就是说,由于没有单词、位置、语法结构以及领域知识等其他类型的补充信息,可能会产生语义歧义。相反的,如果采用基于词的分割方式提取语义,很可能会产生分割错误,因为中文文本和英文文本不同,中文文本中词之间没有明显的分隔符。这种分割错误会级联地导致语义信息提取错误。比如“乙状结肠癌根治性切除术”,“奥沙利铂”等。如果没有医学领域知识的指导,对这些专业术语的分词变得非常困难。另外,很多中文词存在“同名异义或者异名同义”现象,即,同一个词,在不同上下文中的含义也可能不同。例如,“疾”字有“疾病”的意思也有“快”的意思,如果没有领域知识的指导,也可能会产生歧义。
技术实现思路
为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提供一种中文医疗命名实体识别方法、系统、存储介质和设备,其基于医学概念和跨语言,学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少多义词的歧义,结合跨语言知识迁移方法将高资源语言知识迁移到中文医疗文本中进行知识补充,以提高中文医疗命名实体识别的准确性。为了实现上述目的,本专利技术采用如下技术方案:本专利技术的第一个方面提供一种中文医疗命名实体识别方法。在一个或多个实施例中,一种中文医疗命名实体识别方法,包括:获取临床文本数据;将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。本专利技术的第二个方面提供一种中文医疗命名实体识别系统。在一个或多个实施例中,一种中文医疗命名实体识别系统,包括:数据获取模块,其用于获取临床文本数据;融合特征模块,其用于将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;实体识别模块,其用于将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。本专利技术的第三个方面提供一种计算机可读存储介质。在一个或多个实施例中,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的中文医疗命名实体识别方法中的步骤。本专利技术的第四个方面提供一种计算机设备。在一个或多个实施例中,一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的中文医疗命名实体识别方法中的步骤。与现有技术相比,本专利技术的有益效果是:(1)本专利技术引入实体词典,将语义嵌入到实体表示中,能够更好的理解句子中丰富的语法和语义信息;(2)本专利技术学习了一组紧凑的医学概念,作为隐藏语义与观察到的医学证据之间的桥梁,提取细粒度语义信息,减少了多义词的歧义;(3)本专利技术采用跨语言知识迁移方法,将高资源语言知识迁移到中文医疗文本中,进行知识补充,借助外部语言知识监督中文命名实体识别任务;(4)本专利技术提取医疗文本的多粒度特征,融合单词序列和字符序列信息,从而给出更一致的信号,丰富单词的语义,提高了实体识别的准确性。。本专利技术附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。图1是本专利技术实施例的中文医疗命名实体识别方法流程图;图2是本专利技术实施例的字符嵌入表示生成流程图;图3是本专利技术实施例的医学概念嵌入特征向量生成流程图;图4是本专利技术实施例的跨语言中文嵌入表示生成流程图;图5是本专利技术实施例的多元数据融合特征向量生成流程图;图6是本专利技术实施例的文本图结构示意图;图7是本专利技术实施例的中文医疗命名实体识别系统结构示意图;图8是本专利技术实施例的不同类型实体的统计信息。具体实施方式下面结合附图与实施例对本专利技术作进一步说明。应该指出,以下详细说明都是例示性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。实施例一参照图1,本实施例的一种中文医疗命名实体识别方法,其包括:S101:获取临床文本数据。具体地,从电子病历中获取临床文本数据。电子病历为患者健康信息的集合,包括临床文本、药物记录、疾病诊断记录、生理指标、实验室结果、非书面记录(医学图像、心电图和录音等)、手术史,遗传病史和医疗费用等;根据电子本文档来自技高网
...

【技术保护点】
1.一种中文医疗命名实体识别方法,其特征在于,包括:/n获取临床文本数据;/n将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;/n将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;/n其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。/n

【技术特征摘要】
1.一种中文医疗命名实体识别方法,其特征在于,包括:
获取临床文本数据;
将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。


2.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,采用基于BERT的预训练模型,获得医疗文本的字符嵌入表示。


3.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,利用基于注意力机制的语义树,获取医学概念嵌入特征向量。


4.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,利用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到跨语言中文嵌入表示。


5.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,文本图中的节点有两类节点组成,分别是字符节点和词典节点,字符节点为句子中的每一个字符,词典节点由开始节点和结束节点组成。


6.如权利要求5所述的中文医疗命名实体识别方法,其特征在于,词典节点隶属于手术词典、疾病...

【专利技术属性】
技术研发人员:王红王正军杨杰王彩雨杨雪李刚滑美芳胡斌王吉华贾伟宽闫伟
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1