一种医学命名实体识别方法及系统技术方案

技术编号：30321358 阅读：16 留言：0更新日期：2021-10-09 23:45

本发明专利技术公开了一种医学命名实体识别方法及系统，所述方法包括：获取待识别文本数据；基于医学命名实体识别模型，对待识别文本数据进行命名实体识别，其中，所述医学命名实体识别模型包括依次连接的输入层、特征提取层和标注层，所述特征提取层包括字符嵌入模块和单词嵌入模块。本发明专利技术对文本中的句子从字符级和词级两方面考虑，充分获取了嵌入词的信息量和含义，有助于提高命名实体的识别精度。有助于提高命名实体的识别精度。有助于提高命名实体的识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种医学命名实体识别方法及系统

[0001]本专利技术属于医学文本处理
，尤其涉及一种医学命名实体识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。
[0003]命名实体识别(Named Entity Recognition，NER)，是NLP领域中的基础任务，也是问答系统、机器翻译、句法分析等多数NLP任务的重要基础工具。以前的方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法，但是随着新的实体名称不断涌现，词典的质量与大小有局限性；基于规则的方法是通过实体名成自身的特征和短语的常见搭配，来人为的指定一些规则，扩充规则集合，但是需要耗费巨大的人力资源和时间成本，规则一般只在某个特定的领域内有效，进行人工迁移的代价高，且规则移植性不强。进行命名实体识别，多采用机器学习的方法，通过不断地优化模型训练，使训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(Hidden Markov Model，HMM)、支持向量机(Support Vector Machine，SVM)、最大熵马尔可夫模型(Maximum Entropy Markov Model，MEMM)、条件随机场(Conditional Random Field，CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理，所以在实体识别中应用较多，且效果不错。目前，针对序列标注问题，一般采用深度学习算法。与传统算法相比...

【技术保护点】

【技术特征摘要】
1.一种医学命名实体识别方法，其特征在于，包括以下步骤：获取待识别文本数据；基于医学命名实体识别模型，对待识别文本数据进行命名实体识别，其中，所述医学命名实体识别模型包括依次连接的输入层、特征提取层和标注层，所述特征提取层包括字符嵌入模块和单词嵌入模块。2.如权利要求1所述的医学命名实体识别方法，其特征在于，所述字符嵌入模块首先对待识别文本数据分别进行局部Transformer特征提取和全局Transformer特征提取，然后将字符特征进行融合。3.如权利要求2所述的医学命名实体识别方法，其特征在于，所述全局Transformer特征提取包括：将待识别文本数据中所有句子的字符进行合并；利用双向长短期记忆神经网络提取字符上下文信息；进行全局Transformer特征提取。4.如权利要求2所述的医学命名实体识别方法，其特征在于，所述将字符特征进行融合包括：将局部Transformer特征提取和全局Transformer特征提取得到的字符特征进行拼接融合。5.如权利要求1所述的医学命名实体识别方法，其特征在于，所述单词嵌入模块采用BERT模型进行特征提取。...

【专利技术属性】
技术研发人员：潘景山，徐卫志，范胜玉，涂阳，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人