一种医学命名实体识别方法及系统技术方案

技术编号:30321358 阅读:16 留言:0更新日期:2021-10-09 23:45
本发明专利技术公开了一种医学命名实体识别方法及系统,所述方法包括:获取待识别文本数据;基于医学命名实体识别模型,对待识别文本数据进行命名实体识别,其中,所述医学命名实体识别模型包括依次连接的输入层、特征提取层和标注层,所述特征提取层包括字符嵌入模块和单词嵌入模块。本发明专利技术对文本中的句子从字符级和词级两方面考虑,充分获取了嵌入词的信息量和含义,有助于提高命名实体的识别精度。有助于提高命名实体的识别精度。有助于提高命名实体的识别精度。

【技术实现步骤摘要】
一种医学命名实体识别方法及系统


[0001]本专利技术属于医学文本处理
,尤其涉及一种医学命名实体识别方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。
[0003]命名实体识别(Named Entity Recognition,NER),是NLP领域中的基础任务,也是问答系统、机器翻译、句法分析等多数NLP任务的重要基础工具。以前的方法主要是基于词典和基于规则的。基于词典的方法是通过字符串模糊查找或者完全匹配的方法,但是随着新的实体名称不断涌现,词典的质量与大小有局限性;基于规则的方法是通过实体名成自身的特征和短语的常见搭配,来人为的指定一些规则,扩充规则集合,但是需要耗费巨大的人力资源和时间成本,规则一般只在某个特定的领域内有效,进行人工迁移的代价高,且规则移植性不强。进行命名实体识别,多采用机器学习的方法,通过不断地优化模型训练,使训练的模型在测试评估时表现出较好的性能。目前应用较多的模型有隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、条件随机场(Conditional Random Field,CRF)等。条件随机场模型能对邻近标签对预测序列的影响问题进行有效地处理,所以在实体识别中应用较多,且效果不错。目前,针对序列标注问题,一般采用深度学习算法。与传统算法相比,深度学习算法去掉了手工提取特征这一步,能有效的提取判别特征。
[0004]在生物医学领域,文献资源每年都在数以千倍的增加,这些信息的构成多以非结构化文本的形式存储,生物医学命名实体识别的任务是将非结构化文本转为结构化文本,将生物医学文本中的特定实体名称如基因、蛋白质、疾病等进行识别和分类。目前生物医学命名实体识别面临着很多困难:实体名称带有多个修饰词,辨别实体边界难度加大;多个实体名称共享一个单词;缺乏严格的命名标准;缩写词存在歧义等等。近年来,双向长短期记忆(BiLSTM)和条件随机场(CRF)相结合的神经网络方法在各种NER数据集上取得了较好的效果。虽然BiLSTM探索了大量的上下文信息,但在现有的训练词嵌入中,医学专业词汇出现的频率较少,不能获得更准确的词义,并且不能保证每次获得的单词标签都被正确预测。

技术实现思路

[0005]为克服上述现有技术的不足,本专利技术提供了一种医学命名实体识别方法及系统。采用多维度Transformer来探索词嵌入信息,进而弥补专业词汇的词嵌入信息,提高命名实体的识别准确度。
[0006]为实现上述目的,本专利技术的一个或多个实施例提供了如下技术方案:
[0007]一种医学命名实体识别方法,包括以下步骤:
[0008]获取待识别文本数据;
[0009]基于医学命名实体识别模型,对待识别文本数据进行命名实体识别,
[0010]其中,所述医学命名实体识别模型包括依次连接的输入层、特征提取层和标注层,所述特征提取层包括字符嵌入模块和单词嵌入模块。
[0011]进一步地,所述字符嵌入模块首先对待识别文本数据分别进行局部Transformer特征提取和全局Transformer特征提取,然后将字符特征进行融合。
[0012]进一步地,所述全局Transformer特征提取包括:
[0013]将待识别文本数据中所有句子的字符进行合并;
[0014]利用双向长短期记忆神经网络提取字符上下文信息;
[0015]进行全局Transformer特征提取。
[0016]进一步地,所述将字符特征进行融合包括:
[0017]将局部Transformer特征提取和全局Transformer特征提取得到的字符特征进行拼接融合。
[0018]进一步地,所述单词嵌入模块采用BERT模型进行特征提取。
[0019]进一步地,所述标注层采用条件随机场进行标记和划分。
[0020]一个或多个实施例提供了一种医学命名实体识别系统,其特征在于,包括:
[0021]数据获取模块,被配置为获取待识别文本数据;
[0022]命名实体识别模块,被配置为基于医学命名实体识别模型,对待识别文本数据进行命名实体识别,其中,所述医学命名实体识别模型包括依次连接的输入层、特征提取层和标注层,所述特征提取层包括字符嵌入模块和单词嵌入模块。
[0023]进一步地,所述字符嵌入模块首先对待识别文本数据分别进行局部Transformer特征提取和全局Transformer特征提取,然后将字符特征进行融合。
[0024]一个或多个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述医学命名实体识别方法。
[0025]一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述医学命名实体识别方法。
[0026]以上一个或多个技术方案存在以下有益效果:
[0027]对文本中的句子从字符级和词级两方面考虑,获取字符级和词级多维度嵌入信息,进而弥补专业词汇的词嵌入信息,有助于提高命名实体识别的准确性。
[0028]使用局部和全局Transformer来探索词嵌入信息,使用BERT获得词级的特征信息,最后将不同维度的单词嵌入特征信息使用拼接融合的方法生成嵌入向量,提升了模型的训练性能,并且,极大地提升了模型所能处理的词汇量。
[0029]在进行全局Transformer特征提取之前,首先利用BiLSTM提取字符上下文信息,然后执行全局Transformer特征提取,避免了上下文信息的丢失,同时提高了特征提取效率。
附图说明
[0030]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0031]图1为本专利技术一个或多个实施例中医学命名实体识别方法流程架构图。
具体实施方式
[0032]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0033]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0034]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0035]Transformer是近年来在自然语言处理领域中提升任务性能的重要工具。通过利用多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医学命名实体识别方法,其特征在于,包括以下步骤:获取待识别文本数据;基于医学命名实体识别模型,对待识别文本数据进行命名实体识别,其中,所述医学命名实体识别模型包括依次连接的输入层、特征提取层和标注层,所述特征提取层包括字符嵌入模块和单词嵌入模块。2.如权利要求1所述的医学命名实体识别方法,其特征在于,所述字符嵌入模块首先对待识别文本数据分别进行局部Transformer特征提取和全局Transformer特征提取,然后将字符特征进行融合。3.如权利要求2所述的医学命名实体识别方法,其特征在于,所述全局Transformer特征提取包括:将待识别文本数据中所有句子的字符进行合并;利用双向长短期记忆神经网络提取字符上下文信息;进行全局Transformer特征提取。4.如权利要求2所述的医学命名实体识别方法,其特征在于,所述将字符特征进行融合包括:将局部Transformer特征提取和全局Transformer特征提取得到的字符特征进行拼接融合。5.如权利要求1所述的医学命名实体识别方法,其特征在于,所述单词嵌入模块采用BERT模型进行特征提取。...

【专利技术属性】
技术研发人员:潘景山徐卫志范胜玉涂阳
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1