基于融合多层语义特征的命名实体识别方法、设备和介质技术

技术编号:37471524 阅读:14 留言:0更新日期:2023-05-06 09:52
本发明专利技术公开了一种基于融合多层语义特征的命名实体识别方法、设备和介质,包括:获取文本数据集分为训练集和测试集,采用BIO标注方法对数据集中每个样本的字符进行标注;将标注后的数据集中的每条数据构建对应的标签序列;构建命名实体识别模型并利用训练集进行训练,命名实体识别模型包括Bert预训练语言模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层、条件随机场CRF层;将测试集输入训练好的命名实体识别模型,获得命名实体识别结果。该方法能够改善长文本中或包含长实体的文本中的实体提取效果,提升整体命名实体识别的准确性。准确性。准确性。

【技术实现步骤摘要】
基于融合多层语义特征的命名实体识别方法、设备和介质


[0001]本专利技术属于命名实体识别领域,具体涉及一种基于融合多层语义特征的命名实体识别方法、设备和介质。

技术介绍

[0002]近年来,随着互联网信息技术的发展,在各领域内中的各式信息展现出爆炸式的增长,每天都会有海量的新数据产生,面对这些大量的数据,利用深度学习的方法从中获取有用的信息成为当下主流的研究热点。命名实体识别(Named Entity Recognition, NER)作为信息抽取中的一个重要任务,旨在从非结构化文本中提取有效的实体信息,例如时间、地点、人物、组织机构等。实体识别技术的提升对后续关系抽取、机器翻译、图谱构建等下游任务的发展有着重大帮助。目前,命名实体识别技术已经在通用领域内有了较为充分的研究。
[0003]在传统的命名实体识别方法中,基本都以字典和规则的方式来实现,后来随着机器学习的出现,传统方法逐渐被取代。近几年来,随着深度学习技术的快速发展,以往的实体识别方法在神经网络模型的帮助下有了更好地提升。目前在基于深度学习的中文命名实体识别方法中,文本的处理大部分都以字或词作为单位,然而以字或词为特征的实体识别方法无法充分利用文本的信息,尤其在针对长文本或者包含长实体的一些数据文本中,想要有效地提取实体却比较困难。

技术实现思路

[0004]本专利技术的目的在于针对上述问题,提出一种基于融合多层语义特征的命名实体识别方法、设备和介质,可更加充分地利用文本信息,从而提升命名实体识别的性能。
[0005]为实现上述目的,本专利技术所采取的技术方案为:本专利技术提出一种基于融合多层语义特征的命名实体识别方法,所述基于融合多层语义特征的命名实体识别方法包括如下步骤:步骤1、构建训练命名实体识别模型的数据集并将其划分为训练集和测试集,同时采用BIO标注方法对数据集中的各个字符进行标注;步骤2、对文本数据集中的每一条数据构建对应的标签序列,标签序列表示如下:,式中,表示每一条数据中的第个字符,表示第个字符对应的实体标签类别,表示每一条数据的长度;步骤3、构建融合多层语义特征的命名实体识别模型并利用训练集训练,命名实体识别模型包括Bert预训练模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层和条件随机场CRF层;步骤4、将测试集中待识别的数据输入训练好的命名实体识别模型,获得命名实体识别结果,其中识别效果指标包括精确率P、召回率R和F1值其中一种或多种。
[0006]进一步地,所述步骤1中的BIO标注方法为:将样本中的每个字符标注为“B

X”、“I

X”或者“O”,其中,“B

X”表示此字符所在的实体属于X类型并且此字符属于实体的开头,“I

X”表示此字符所在的实体属于X类型并且此字符在此实体的中间位置或末尾位置,“O”则表示此字符不属于任何类型。
[0007]进一步地,所述步骤3中模型训练过程如下:步骤31、利用Bert预训练模型对训练集中的所有样本进行字符特征提取,将样本中的每一个字符映射成768维的字符特征向量;步骤32、构建多层Transformer编码网络,利用多层Transformer编码网络对训练集中的样本进行特征提取,底层Transformer提取浅层语义信息,顶层Transformer提取深层语义信息,将这两层语义信息特征融合后采用均值操作得到768维的语义特征向量;步骤33、将步骤31中的字符特征向量和步骤32中的语义特征向量进行拼接,得到融合多层语义特征的拼接向量;步骤34、将步骤33得到的向量作为双向长短期记忆网络BiLSTM层的输入,BiLSTM层利用其双向记忆网络的特性提取全局信息,获得包含上下文信息的特征向量,该特征向量经softmax获得各字符对应标签概率集合;步骤35、将标签概率集合输入条件随机场CRF层,条件随机场CRF层自主学习标签序列之间的特征并对标签序列进行相应的规则约束,从而获得最佳标签序列;步骤36、判断模型训练次数是否达到预设值,若达到预设值,停止训练,获得训练好的命名实体识别模型,否则,返回执行步骤S31。
[0008]进一步地,所述步骤3中,所述多层Transformer编码网络中,底层Transformer提取更常见、通用和基础广泛的信息,顶层Transformer提取更近似于本地化和特定于手头任务的信息,将底层Transformer和顶层Transformer提取的特征向量利用均值操作进行融合,同时将该语义特征向量映射成768维。
[0009]进一步地,所述步骤3中,所述双向长短期记忆网络BiLSTM层包含正向的LSTM和逆向的LSTM,每个LSTM维度控制在32~256维。
[0010]进一步地,每个LSTM维度控制在150维。
[0011]进一步地,所述步骤3中,所述Bert预训练模型输入部分由词向量、段向量和位置向量组成,用于区分同一字符在不同位置下的特征表示。
[0012]进一步地,所述条件随机场CRF层采用维特比算法来获得最佳标签序列并优化计算时间。
[0013]本专利技术还提供一种基于融合多层语义特征的命名实体识别设备,包括一个或多个处理器,用于实现如上所述的基于融合多层语义特征的命名实体识别方法。
[0014]本专利技术还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现如上所述的基于融合多层语义特征的命名实体识别方法。
[0015]与现有技术相比,本专利技术的有益效果为:该方法通过构建命名实体识别模型,利用Bert预训练模型获取字符特征,利用多层Transformer编码网络获取浅层语义特征和深层语义特征,将这些特征进行融合后可以充分利用文本信息,对长文本中或包含长实体的文本中的实体提取有更好的帮助,将融合后的特征向量输入双向长短期记忆网络BiLSTM层和条件随机场CRF后,利用BiLSTM双向特
征提取的特性可以有效地获得上下文信息,同时条件随机场CRF也能对标签序列进行有效的规则约束,降低不合理的标签序列的出现概率,从而提升命名实体识别结果的准确性。
附图说明
[0016]图1为本专利技术的一种基于融合多层语义特征的命名实体识别方法的流程图;图2为本专利技术的一种基于融合多层语义特征的命名实体识别方法中多头注意力机制结构图;图3为本专利技术的一种基于融合多层语义特征的命名实体识别方法中Transformer编码内部结构图;图4为本专利技术的一种计算机设备结构示意图。
具体实施方式
[0017]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0018]需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合多层语义特征的命名实体识别方法,其特征在于:所述基于融合多层语义特征的命名实体识别方法包括如下步骤:步骤1、构建训练命名实体识别模型的数据集并将其划分为训练集和测试集,同时采用BIO标注方法对数据集中的各个字符进行标注;步骤2、对文本数据集中的每一条数据构建对应的标签序列,标签序列表示如下:,式中,表示每一条数据中的第个字符,表示第个字符对应的实体标签类别,表示每一条数据的长度;步骤3、构建融合多层语义特征的命名实体识别模型并利用训练集训练,命名实体识别模型包括Bert预训练模型、多层Transformer编码网络、双向长短期记忆网络BiLSTM层和条件随机场CRF层;步骤4、将测试集中待识别的数据输入训练好的命名实体识别模型,获得命名实体识别结果,其中识别效果指标包括精确率P、召回率R和F1值其中一种或多种。2.如权利要求1所述的基于融合多层语义特征的命名实体识别方法,其特征在于:所述步骤1中的BIO标注方法为:将样本中的每个字符标注为“B

X”、“I

X”或者“O”,其中,“B

X”表示此字符所在的实体属于X类型并且此字符属于实体的开头,“I

X”表示此字符所在的实体属于X类型并且此字符在此实体的中间位置或末尾位置,“O”则表示此字符不属于任何类型。3.如权利要求1所述的基于融合多层语义特征的命名实体识别方法,其特征在于:所述步骤3中模型训练过程包括:步骤31、利用Bert预训练模型对训练集中的所有样本进行字符特征提取,将样本中的每一个字符映射成768维的字符特征向量;步骤32、构建多层Transformer编码网络,利用多层Transformer编码网络对训练集中的样本进行特征提取,底层Transformer提取浅层语义信息,顶层Transformer提取深层语义信息,将这两层语义信息特征融合后采用均值操作得到768维的语义特征向量;步骤33、将步骤31中的字符特征向量和步骤32中的语义特征向量进行拼接,得到融合多层语义特征的拼接向量;步骤34、将步骤33得到的向量作为双向长短期记忆...

【专利技术属性】
技术研发人员:郭方洪金聪朱琦傅金波刘涛
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1