一种基于词汇增强的中医文本命名实体识别方法技术

技术编号:37157455 阅读:35 留言:0更新日期:2023-04-06 22:19
本发明专利技术公开了一种面向中医文本的命名实体识别方法,具体涉及一种基于词汇增强的中医文本命名实体识别方法,包括:首先,收集中医文献通过数据清洗、标注,构建中医领域数据集;之后,引入中医领域词典;然后,输入到输入表示层的嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合领域词典同时生成字符对应的单词向量,位置编码对不同字符进行相对位置编码;接着,送入上下文编码层,通过Transformer编码器和TCN模型获取文本的全局和局部特征;最后,输出解码层CRF模型对融合后的特征向量进行解码,得到全局最优的标签序列。本发明专利技术解决了中医实体过长引发的长记忆丢失和分词错误带来的噪声问题,使得中医命名实体识别任务更精准高效。体识别任务更精准高效。体识别任务更精准高效。

【技术实现步骤摘要】
一种基于词汇增强的中医文本命名实体识别方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种基于词汇增强的中医文本命名实体识别方法。

技术介绍

[0002]中医是中国传统医学文化的精华,同时也是中国历史上历代人民与疾病抗争中积累下来的拥有丰富诊疗经验的总结。同时当前我国提倡“智慧医疗”,“医工融合”,将人工智能相关的技术应用到医学信息处理当中,对中医文献进行命名实体识别,有助于理清中医文献的知识概念表达,是中医文献信息化、智能化处理的重要任务。
[0003]早期传统的命名实体识别算法是基于词典和规则的方法,采用机器学习对实体边界和类别标签进行联合预测,但是这种方式效率低,可移植性差。随着深度学习技术的发展,基于深度学习的命名实体识别方法逐渐成为主流。目前在中医领域使用最多的是双向长短时记忆网络结合条件随机场序列标注(BiLSTM

CRF)的命名实体识别方法。该方法能够在一定程度上获取长句子的上下文信息,提高实体边界的识别效率;同时结合CRF方法生成最优的标注序列。但是该方法在上下文信息获取上仍有很大的不足和提本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于词汇增强的中医文本命名实体识别方法,其特征在于,包括以下步骤:S1,构建中医命名实体识别标准数据集;S2,引入中医领域专用词典;S3,以步骤S1构建的数据集作为模型训练的原始数据,送入输入表示层,采用扁平晶格网络实现字词向量的生成和提取相对位置特征信息;S4,以步骤S3输入表示层的输出结果输入到上下文编码层,所述的上下文编码层通过Transformer编码器和TCN模型获取文本的全局和局部特征,采用ADD操作融合两个模型捕获的特征信息,最后得到新的特征向量序列;S5,采用输出解码层CRF模型对步骤S4融合后的特征向量进行解码,得到全局最优的标签序列。2.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S1的具体过程为:中医文献搜集,OCR文字提取,清洗校正、领域专家确定实体标签及标注规则、使用doccano进行实体标注、数据处理等形成规范化文本数据以及标准数据集,将数据集按照8:1:1分为训练集、验证集和测试集。3.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S2的具体过程为:构建中医领域知识词典,词典术语数据来源于国家中医药管理局、国家卫生健康委员会颁发的中医药行业标准:《中医病证分类与代码》和《中医临床诊疗术语》,主要包括:疾病名称、症状名称、证候名称、治法名称、脉象名称、舌象名称、方剂名称、药物名称等。4.根据权利要求1所述的一种基于词汇增强的中医文本命名实体识别方法,其特征在于,所述S3中输入表示层包括嵌入层和位置编码,嵌入层采用扁平晶格结构,在生成字符向量时,结合词典同时生成字符对应的单词向量;位置编码使用对不同字符或单词文本进行相对位置编码的方式,使用四种相对距离来表示xi和xj之间的关系,计算公式为:相对位置编码的方式,使用四种相对距离来表示xi和xj之间的关系,计算公式为:相对位置编码的方式,使用四种相对距离来表示xi和xj之间的关系,计算公式为:相对位置编码的方式,使用四种相对距离来表示xi和xj之间的关系,计算公式为:其中head[i]和tail[i]表示xi的头和尾的位置,表示xi的头部与xj的头部之间的距离,其他类似;利用非线性变换得到两两节点之间的最终相对位置编码R
ij
,计算公式为:其中,ReLU为激活函数,W
r

【专利技术属性】
技术研发人员:殷继彬吴淼淼
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1