基于多头注意力机制的中医医案命名实体识别方法及系统技术方案

技术编号:26792140 阅读:37 留言:0更新日期:2020-12-22 17:07
本公开提供了一种基于多头注意力机制的中医医案命名实体识别方法,包括以下步骤:获取中医医案的文本数据;将获取的文本数据中的字符向量和单词向量结合后送入到Bi‑GRU神经网络中,进行特征提取,得到全局特征;利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;将全局特征和局部特征输入到条件随机场层,得到文本数据的命名实体序列标注结果;本公开无需分词操作,通过对字符和单词的特征进行结合形成一种联合特征,使用超参数对字符和单词的权重进行控制,将联合特征输入到嵌入层,并且在Bi‑GRU层添加空间关注,弥补了其在提取有效特征中的不足,极大的提高了实体识别的准确率。

【技术实现步骤摘要】
基于多头注意力机制的中医医案命名实体识别方法及系统
本公开涉及文本数据处理
,特别涉及一种基于多头注意力机制的中医医案命名实体识别方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。随着中医信息化的迅速发展,中医在各大医院中的应用也越来越普及。不同于其他医种,中医中最重要的是中医医案。中医医案是历代医家临床实践经验及学术思想的载体,作为历代中医医家临床诊疗经验的记录,蕴藏着历代医家的医学思想和辨证论治经验,承载着中医知识体系的传承与发展。中医医案记录患者所患疾病、症状和体征以及治疗方法等一系列与患者自身健康状况密切相关的重要信息,这些信息是中医中重要的经验和方法,如何利用中医医案挖掘有用信息是中医发展中重要一环。中医医案中文本是非结构化数据并且缺乏统一的表述标准,这是影响中医医案二次利用的一个主要原因。准确地识别非结构化中医医案文本中的实体可以为患者的诊断和治疗提供有效的决策支持。为了达到这个目的,中医医案文本命名实体识别任务用于自动识别在中医医案文本中表达独立含义的各种命名实体,此任务包本文档来自技高网...

【技术保护点】
1.一种基于多头注意力机制的中医医案命名实体识别方法,其特征在于,包括以下步骤:/n获取中医医案的文本数据;/n将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU神经网络中,进行特征提取,得到全局特征;/n利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;/n将全局特征和局部特征输入到条件随机场层,得到文本数据的命名实体序列标注结果。/n

【技术特征摘要】
1.一种基于多头注意力机制的中医医案命名实体识别方法,其特征在于,包括以下步骤:
获取中医医案的文本数据;
将获取的文本数据中的字符向量和单词向量结合后送入到Bi-GRU神经网络中,进行特征提取,得到全局特征;
利用多头注意力机制,为字符向量提供潜在的语义信息,提取局部特征;
将全局特征和局部特征输入到条件随机场层,得到文本数据的命名实体序列标注结果。


2.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,在条件随机场层中,根据各个单词计算为任一个标签概率的得分以及转移矩阵计算序列得分,以分值最高的序列作为最优序列。


3.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,利用Bi-GRU循环神经网络对输入特征向量进行特征提取,将两个方向的GRU结果进行联结,得到全局特征输出。


4.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,在对字符向量和单词向量进行结合时,使用超参数来控制字符和单词之间的组合比例。


5.如权利要求1所述的基于多头注意力机制的中医医案命名实体识别方法,其特征在于,利用Bi-GRU循环神经网络提取句子上下文特征,得到全局特征输出;
或者,
采用第一字符、第二字符、第三字符、第四字符和第五字符对中医医案文本进行标记,分别表示一个单词的开头、中间、外面、结尾和单独一个字符的单词。


6.如权利要求1所述的...

【专利技术属性】
技术研发人员:袁锋于凤洋郑向伟虞凤萍徐传杰刘悦王冰
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1