中文医疗命名实体识别方法、系统、存储介质和设备技术方案

技术编号:27936788 阅读:34 留言:0更新日期:2021-04-02 14:17
本发明专利技术属于中文医疗命名实体识别技术领域,提供了一种中文医疗命名实体识别方法、系统、存储介质和设备。其中,中文医疗命名实体识别方法包括获取临床文本数据;将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;基于多图的命名实体识别模型包括多图网络和LSTM‑CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM‑CRF模型,由LSTM‑CRF模型输出识别结果。其提高了中文医疗命名实体识别准确性。

【技术实现步骤摘要】
中文医疗命名实体识别方法、系统、存储介质和设备
本专利技术属于中文医疗命名实体识别
,尤其涉及一种中文医疗命名实体识别方法、系统、存储介质和设备。
技术介绍
本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。命名实体识别是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。医疗命名实体识别从医生的治疗记录中识别疾病、症状、治疗等实体。医疗命名实体识别是电子病历语义结构化的基础和关键,其任务是从电子病历的医疗文本中识别出不同的实体,如疾病、症状、治疗、药物、手术和解析部位等,为后续的关系抽取、实体连接、知识图谱构建等工作提供重要的支持。中文命名实体识别对临床实践和研究中具有广泛的实用价值,对其研究具有非常重要的意义。在实现本公开的过程中,专利技术人发现现有技术中存在以下技术问题:中文的医疗实体识别与英文的相比,存在诸多难点,挑战更大,目前未解决的难题更多。例如中文医疗文本具有予以提取不完整,分割错误和语义歧义等问题。具体来说,中文医疗文本语义信息,例如药物和临床疾病的诊断记录,很难本文档来自技高网...

【技术保护点】
1.一种中文医疗命名实体识别方法,其特征在于,包括:/n获取临床文本数据;/n将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;/n将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;/n其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。/n

【技术特征摘要】
1.一种中文医疗命名实体识别方法,其特征在于,包括:
获取临床文本数据;
将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM-CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM-CRF模型,由LSTM-CRF模型输出识别结果。


2.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,采用基于BERT的预训练模型,获得医疗文本的字符嵌入表示。


3.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,利用基于注意力机制的语义树,获取医学概念嵌入特征向量。


4.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,利用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到跨语言中文嵌入表示。


5.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,文本图中的节点有两类节点组成,分别是字符节点和词典节点,字符节点为句子中的每一个字符,词典节点由开始节点和结束节点组成。


6.如权利要求5所述的中文医疗命名实体识别方法,其特征在于,词典节点隶属于手术词典、疾病...

【专利技术属性】
技术研发人员:王红王正军杨杰王彩雨杨雪李刚滑美芳胡斌王吉华贾伟宽闫伟
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1