一种改进BERT训练模型及一种命名实体识别方法、系统技术方案

技术编号:27825135 阅读:25 留言:0更新日期:2021-03-30 11:03
本发明专利技术提出了一种改进BERT训练模型及一种命名实体识别方法、系统,该改进BERT训练模型包括传统BERT模型、强化位置编码层、分类层。强化位置编码层用于提取各字符任务向量中的位置向量,将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;分类层,用于将得到的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。本发明专利技术强化了位置编码信息,能避免传统BERT训练模型在关系抽取、语义分析的错误。语义分析的错误。语义分析的错误。

【技术实现步骤摘要】
一种改进BERT训练模型及一种命名实体识别方法、系统


[0001]本专利技术涉及自然语言处理识别
,特别涉及一种改进BERT训练模型及一种命名实体识别方法、系统。

技术介绍

[0002]随着经济的发展,各行各业的新生事物逐渐增多,例如微博中的新生词汇、化学中合成的新的物质、汽车公司新出的车系、科技公司开发的软件应用等,这些新生词汇在自然语言中的表达出现多样性、歧义性、时效性的特征,因此需要一种中文文本的数据结构化处理方法,能自动提取文本中的命名实体,让其在海量文本数据中发挥应有的价值。准确提取命名实体的前提是进行准确的命名实体识别(Named Entity Recognition,简称NER),即指识别文本中具有特定意义的实体,主要包括人名、地名、公司名、时间、专有名词等。命名实体是文本中的细粒度元素,是重要的信息表达载体,是正确理解和处理文本信息的基础。中文命名实体识别是自然语言处理领域中的基本任务之一,其主要任务是识别出文本中出现的名字实体和有意义的短语并加以归类,命名实体识别准确率和召回率的高低,直接决定着关系抽取、语义分析等语言理解全过程的性能。
[0003]2018年底,谷歌发布的论文《Pre

training of Deep Bidirectional Transformers for Language Understanding》提出了BERT(Bidirectional Encoder Representations from Transformers)模型,作为Word2Vec(用来产生词向量的相关模型)的替代者,其使用了Transformer作为算法的主要框架,Transformer能更彻底的捕捉语句中的双向关系,本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示。
[0004]然而实际应用中发现,经过多层的Transformer处理,基于BERT的预训练模型输出向量中的位置编码信息已经弱化,从而导致一些依赖位置特征的实体标签预测错误。例如句子“另据阿尔及利亚主要日报《祖国报》报道”,预测出的实体是<阿尔及利亚,国家>、<祖国报,游戏>,其中<祖国报>的正确标签应该是书籍而不是游戏。这个错误是因为数据集中很多游戏实体带书名号,模型过度地学习了前后书名号地特征,而没有学习到与前面国家标签的依赖关系。再如,根据BIO标注规则(B

Begin表示开始,I

Intermediate表示中间,O

other表示与标注无关),第一个位置标签应该为B或者O,但有时却被错误的标签为I。由此可见,如果不注意实体标签与句子中的相对位置、绝对位置,则容易出现关系抽取、语义分析的错误。

技术实现思路

[0005]鉴于上述问题,有必要提出一种改进BERT训练模型以解决或部分解决上述问题,本专利技术提出的技术方案如下:
[0006]本专利技术提出了一种改进BERT训练模型,所述改进BERT训练模型包括传统BERT模型、强化位置编码层,以及分别与传统BERT模型、强化位置编码层输出端连接的分类层,其
中:
[0007]所述传统BERT模型包括输入层、若干Transformer层、输出层,所述输入层用于对输入的按字符切分的任务句子进行向量表示,生成与各字符对应的任务向量,所述任务向量至少包括字向量、位置向量;所述Transformer层用于训练任务向量得到第一语义特征向量,所述输出层用于输出第一语义特征向量;
[0008]所述强化位置编码层,用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;
[0009]所述分类层,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。
[0010]进一步的,所述强化位置编码层用于将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,具体包括:
[0011]将每个字符对应的第二语义特征向量分别与任务句子中其它字符的第一语义特征向量进行相似度计算,得到若干相似度值α
i

[0012]对若干相似度值α
i
进行归一化处理得到相似度向量
ɑ

[0013]将相似度向量
ɑ
作为权重,分别乘以所有字符对应的第一语义特征向量,进行加权求和。
[0014]进一步的,相似度计算包括:余弦相似度法或简单神经网络法或矩阵变换法或点积缩放法。
[0015]进一步的,所述分类层用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放包括:将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加后乘以待训练参数矩阵,再加上一个偏置参数,保证生成的向量维度满足预设标注规则的标签数量。
[0016]第二方面,本专利技术还公开了一种命名实体识别方法,包括以下步骤:
[0017]S1,对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子;
[0018]S2,分别利用上述改进BERT训练模型、预设规则进行命名实体识别,其中,所述改进BERT训练模型由若干带标注实体的句子训练而成;
[0019]S3,对识别的命名实体求并集,去除重复命名实体后输出。
[0020]第三方面,本专利技术还公开了一种命名实体识别系统,包括预处理模块、改进BERT训练模型抽取实体模块、预设规则抽取实体模块、候选实体库模块,其中:
[0021]所述预处理模块,用于对输入的待预测文本进行预处理,得到按照字符进行切分的任务句子;
[0022]所述改进BERT训练模型抽取实体模块,用于利用上述改进BERT训练模型进行命名实体识别,并输出给候选实体库模块;
[0023]所述预设规则抽取实体模块,用于利用预设规则进行命名实体识别,并输出给候选实体库模块;
[0024]所述候选实体库模块,用于对改进BERT训练模型抽取实体模块、预设规则抽取实
体模块输入的命名实体求并集,去除重复命名实体后输出。
[0025]相比于现有技术,本专利技术的有益效果在于:本专利技术的改进BERT训练模型还包括强化位置编码层、分类层,强化位置编码层用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;所述分类层,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种改进BERT训练模型,其特征在于,所述改进BERT训练模型包括传统BERT模型、强化位置编码层,以及分别与传统BERT模型、强化位置编码层输出端连接的分类层,其中:所述传统BERT模型包括输入层、若干Transformer层、输出层,所述输入层用于对输入的按字符切分的任务句子进行向量表示,生成与各字符对应的任务向量,所述任务向量至少包括字向量、位置向量;所述Transformer层用于训练任务向量得到第一语义特征向量,所述输出层用于输出第一语义特征向量;所述强化位置编码层,用于提取各字符任务向量中的位置向量,并将位置向量与预设参数矩阵相乘,得到与第一语义特征向量维度相同的第二语义特征向量;将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,得到各字符的位置编码注意力向量;所述分类层,用于将得到的各字符的位置编码注意力向量分别与第一语义特征向量相加,然后进行维度缩放、归一化处理后输出与每个字符对应的第三语义特征向量,并用预设标注规则对第三语义特征向量进行分类,确定命名实体标签。2.如权利要求1所述的改进BERT训练模型,其特征在于,所述强化位置编码层用于将各字符对应的第一语义特征向量、第二语义特征向量按预设方法进行处理,具体包括:将每个字符对应的第二语义特征向量分别与任务句子中其它字符的第一语义特征向量进行相似度计算,得到一组相似度值α
i
;对得到的一组相似度值α
i
进行归一化处理得到一个相似度向量
ɑ
;将相似度向量
ɑ
作为权重,分别乘以所有字符对应的第一语义特征向量,进行加权求和。3.如权利要求2所述的改进BERT训练模型,其特征在于,相似度计算包括:利用余弦相似度法或简单神经网络法或矩阵变换法或点积缩放法进行相似度计算。4.如权利要求1所述的改进BERT训练模型,其特征在于,所述分类层用于将得到的各字...

【专利技术属性】
技术研发人员:王忠璐刘健博
申请(专利权)人:武汉数博科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1