一种医疗命名实体识别方法及系统技术方案

技术编号：29926189 阅读：9 留言：0更新日期：2021-09-04 18:46

本公开提供了一种医疗命名实体识别方法及系统，获取待识别的医疗文本数据；根据获取的医疗文本数据，得到至少一个句子中的词嵌入向量；进行句子中短语的语法角色标记，结合短语之间的依存关系，得到短语之间的关系图，根据预设图卷积神经网络中，得到特征向量；将获取的词嵌入向量和特征向量进行拼接，得到拼接后的输入向量；根据拼接后的输入向量和预设动态堆叠网络，得到医疗命名实体识别结果；本公开采用动态堆叠网络的原因是为了解决实体嵌套的问题，极大的提高了医疗命名实体的识别精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗命名实体识别方法及系统

[0001]本公开涉及实体识别
，特别涉及一种医疗命名实体识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
，并不必然构成现有技术。
[0003]目前，出现了大量的电子病历数据，以电子格式提供的健康信息的可用性是整个医疗领域提高质量和降低医疗保健成本的战略选择，近年来，医疗保健系统在电子病历方面取得了重大突破。通过使用电子病历可以实现的实质性好处包括质量、安全性和效率的提高，以及教育和研究的能力的增强。尽管如此，在数据采用的过程中仍然存在许多障碍需要去克服。
[0004]医学数据的大规模研究，推动了医学领域的迅速发展。采用文本挖掘的方式，提取存储在数据库中的大量可用医学报告信息，可以获得丰富的医学知识，为医学研究和应用带来巨大的好处。在医学数据挖掘任务中，医疗命名实体的识别和规范化是最基本的任务。
[0005]专利技术人发现，从这些数据中提取临床信息并不容易，因为这些数据是用自然语言编写，充满医学术语、缩写词、速记符号、拼写错误和句子片段的记录。除此之外，还面临着许多挑战和难点。比如：命名实体识别在识别的过程中会存在实体彼此嵌套的问题。因此，语义注释资源尤为重要，比如句法结构分析在命名实体识别任务上也起着重要的作用。但是由于中文表达和英语表达不同，中文存在分词的问题，使得目前现阶段的句法分析大多数都集中在英语上。

技术实现思路

[0006]为了解决现有技术的不足，本公开提供了一...

【技术保护点】

【技术特征摘要】
1.一种医疗命名实体识别方法，其特征在于：包括以下过程：获取待识别的医疗文本数据；根据获取的医疗文本数据，得到至少一个句子中的词嵌入向量；进行句子中短语的语法角色标记，结合短语之间的依存关系，得到短语之间的关系图，根据预设图卷积神经网络中，得到特征向量；将获取的词嵌入向量和特征向量进行拼接，得到拼接后的输入向量；根据拼接后的输入向量和预设动态堆叠网络，得到医疗命名实体识别结果。2.如权利要求1所述的医疗命名实体识别方法，其特征在于：动态堆叠网络中，根据句子的嵌套层数确定Transformer
‑
CRF层的叠加数量。3.如权利要求2所述的医疗命名实体识别方法，其特征在于：如果当前Transformer
‑
CRF层预测到实体，则引入一个新的Transformer
‑
CRF层，结合当前Transformer
‑
CRF层检测到的每个实体的单词序列表示，组成该实体的新表示，然后将其作为输入传递到新的Transformer
‑
CRF层。4.如权利要求2所述的医疗命名实体识别方法，其特征在于：动态堆叠网络中，如果当前Transformer
‑
CRF层检预测到非实体，则保留字符表示而不进行任何处理。5.如权利要求1所述的医疗命名实体识别方法，其特征在于：将短语定义为结点，将短语之间的依存关系定义为边，利用图卷积神经网络通过图上操作聚集结点的邻域特征；如果只有一层卷积，...

【专利技术属性】
技术研发人员：王红，韩书，李威，庄鲁贺，张慧，余盛朋，王正军，杨杰，杨雪，滑美芳，于晓梅，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人