一种命名实体识别方法及终端技术

技术编号:35302964 阅读:18 留言:0更新日期:2022-10-22 12:52
本发明专利技术公开一种命名实体识别方法及终端,对获取的文本进行分词,得到文字序列,其包括字符文字序列;基于所述字符文字序列使用特征增强算法进行特征增强,并基于增强后的多元特征获取特征向量;使用多头注意力机制对特征向量进行时序编码,输出得到时序特征;对时序特征进行预测,得到最优标注序列,并根据其得到文本对应的命名实体识别结果,能够融合多元特征,利用多元特征有利于模型学习到更多的语义信息,且能够有效地获取字符序列之间的注意力,可在计算过程中将序列中任意两个字符直接联系起来,缩短距离依赖,有效利用特征完整表达整个文本的特征以及上下文特征,且字符之间能够相互关联,从而有效提高了命名实体识别的准确率。准确率。准确率。

【技术实现步骤摘要】
一种命名实体识别方法及终端


[0001]本专利技术涉及自然语言处理
,尤其涉及一种命名实体识别方法及终端。

技术介绍

[0002]命名实体识别(Named Entity Recognition,NER)是信息提取、问答系统、句法分析、知识图谱构建等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。简单说就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。与分类问题相比,序列标注问题中,当前的预测标签不仅与当前的输入特征相关,还与之前的预测标签相关,即预测标签序列之间是有强相互依赖关系的。在传统机器学习中,LSTM(Long Short

Term Memory,长短期记忆网络)+CRF(条件随机场)是NER目前的主流模型。它的目标函数不仅考虑了输入的状态特征函数,而且还包含了标签转移特征函数。在CRF求解中,这是一个动态规划问题,可以使用维特比算法进行解码。目前最主流的NER模型基本都是Embedding层、双向RNN(Recurrent Neural Network,循环神经网络)层、tanh(hyperbolic tangent function,双曲正切函数)激活层以及最后的CRF层构成,该模型的优点在于为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息,但仍存在以下不足:
[0003]1、需要按顺序进行序列计算,所以如果面对长句子,距离较远的依赖关系相比之下很难捕获到;
[0004]2、缺少字符之间的关联度。
专利技术内容
[0005]本专利技术所要解决的技术问题是:提供一种命名实体识别方法及终端,能够有效提高命名实体识别的准确率。
[0006]为了解决上述技术问题,本专利技术采用的一种技术方案为:
[0007]一种命名实体识别方法,包括步骤:
[0008]获取文本,并对所述文本进行分词,得到文字序列,所述文字序列包括字符文字序列;
[0009]基于所述字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征,并基于所述增强后的多元特征获取特征向量;
[0010]使用多头注意力机制对所述特征向量进行时序编码,输出得到时序特征;
[0011]对所述时序特征进行预测,得到最优标注序列,并根据所述最优标注序列,得到所述文本对应的命名实体识别结果。
[0012]为了解决上述技术问题,本专利技术采用的另一种技术方案为:
[0013]一种命名实体识别终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0014]获取文本,并对所述文本进行分词,得到文字序列,所述文字序列包括字符文字序
列;
[0015]基于所述字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征,并基于所述增强后的多元特征获取特征向量;
[0016]使用多头注意力机制对所述特征向量进行时序编码,输出得到时序特征;
[0017]对所述时序特征进行预测,得到最优标注序列,并根据所述最优标注序列,得到所述文本对应的命名实体识别结果。
[0018]本专利技术的有益效果在于:基于字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征,并基于增强后的多元特征获取特征向量,使用多头注意力机制对特征向量进行时序编码,输出得到时序特征,通过基于增强后的多元特征获取特征向量,能够融合多元特征,利用多元特征有利于模型学习到更多的语义信息,且利用多头注意力机制能够有效地获取字符序列之间的注意力,可在计算过程中将序列中任意两个字符直接联系起来,缩短距离依赖,有效利用特征完整表达整个文本的特征以及上下文特征,且字符之间能够相互关联,从而有效提高了命名实体识别的准确率。
附图说明
[0019]图1为本专利技术实施例的一种命名实体识别方法的步骤流程图;
[0020]图2为本专利技术实施例的一种命名实体识别终端的结构示意图;
[0021]图3为本专利技术实施例命名实体识别方法中的时序特征获取的步骤示意图;
[0022]图4为本专利技术实施例命名实体识别方法中的特征增强与融合示意图;
[0023]图5为本专利技术实施例命名实体识别方法中的注意力计算网络示意图;
[0024]图6为本专利技术实施例命名实体识别方法中的时序特征获取的结构示意图。
具体实施方式
[0025]为详细说明本专利技术的
技术实现思路
、所实现目的及效果,以下结合实施方式并配合附图予以说明。
[0026]请参照图1,本专利技术实施例提供了一种命名实体识别方法,包括步骤:
[0027]获取文本,并对所述文本进行分词,得到文字序列,所述文字序列包括字符文字序列;
[0028]基于所述字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征,并基于所述增强后的多元特征获取特征向量;
[0029]使用多头注意力机制对所述特征向量进行时序编码,输出得到时序特征;
[0030]对所述时序特征进行预测,得到最优标注序列,并根据所述最优标注序列,得到所述文本对应的命名实体识别结果。
[0031]从上述描述可知,本专利技术的有益效果在于:基于字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征,并基于增强后的多元特征获取特征向量,使用多头注意力机制对特征向量进行时序编码,输出得到时序特征,通过基于增强后的多元特征获取特征向量,能够融合多元特征,利用多元特征有利于模型学习到更多的语义信息,且利用多头注意力机制能够有效地获取字符序列之间的注意力,可在计算过程中将序列中任意两个字符直接联系起来,缩短距离依赖,有效利用特征完整表达整个文本的特征以及上下文
特征,且字符之间能够相互关联,从而有效提高了命名实体识别的准确率。
[0032]进一步地,所述对所述文本进行分词,得到文字序列包括:
[0033]将所述文本按照字符分词规则进行字符分词,得到字符文字序列;
[0034]将所述文本使用分词工具进行词语分词,得到词语文字序列。
[0035]由上述描述可知,对文本进行字符分词的同时进行词语分词,得到字符文字序列和词语文字序列,以不同的文本长度进行分词,以便后续互相学习特征,以提高命名实体识别的准确率。
[0036]进一步地,所述将所述文本使用分词工具进行词语分词,得到词语文字序列包括:
[0037]将所述文本使用jieba分词工具或hanlp分词工具进行词语分词,得到词语文字序列。
[0038]由上述描述可知,可根据实际情况任意选择使用jieba分词工具或hanlp分词工具对文本进行词语分词,提高了灵活性和适用性。
[0039]进一步地,所述基于所述字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征包括:
[0040]根据所述字符文字序列进行转换,得到多元特征;
[0041]使用特征增强算法对所述多元特征进行特征增本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括步骤:获取文本,并对所述文本进行分词,得到文字序列,所述文字序列包括字符文字序列;基于所述字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征,并基于所述增强后的多元特征获取特征向量;使用多头注意力机制对所述特征向量进行时序编码,输出得到时序特征;对所述时序特征进行预测,得到最优标注序列,并根据所述最优标注序列,得到所述文本对应的命名实体识别结果。2.根据权利要求1所述的一种命名实体识别方法,其特征在于,所述对所述文本进行分词,得到文字序列包括:将所述文本按照字符分词规则进行字符分词,得到字符文字序列;将所述文本使用分词工具进行词语分词,得到词语文字序列。3.根据权利要求2所述的一种命名实体识别方法,其特征在于,所述将所述文本使用分词工具进行词语分词,得到词语文字序列包括:将所述文本使用jieba分词工具或hanlp分词工具进行词语分词,得到词语文字序列。4.根据权利要求2所述的一种命名实体识别方法,其特征在于,所述基于所述字符文字序列使用特征增强算法进行特征增强,得到增强后的多元特征包括:根据所述字符文字序列进行转换,得到多元特征;使用特征增强算法对所述多元特征进行特征增强,得到增强后的多元特征。5.根据权利要求2所述的一种命名实体识别方法,其特征在于,所述基于所述增强后的多元特征获取特征向量包括:将所述增强后的多元特征使用线性映射进行特征维度扩充,得到扩充后的多元特征;基于所述扩充后的多元特征进行特征融合,得到融合后的多元特征;将所述融合后的多元特征输入至char embedding网络,输出得到字符特征向量;将所述词语文字序列输入至预训练的BERT模型,输出得到词特征向量。6.根据权利要求5所述的一种命名实体识别方法,其特征在于,所述char embedding网络包括依次连接的全连接神经网络、随机失活层和激活函数;所述将所述融合后的多元特征输入至char embedding网络,输出得到字符特征向量包括:将所述融合后的多元特征输入至所述全连接神经网络,输出得到第一向量;将所述第一向量输入至所述随机失活层,输出得到第二向量;将所述第二向量输入至所述激活函数,...

【专利技术属性】
技术研发人员:涂自龙段思欣郭伟滨许剑峰
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1