一种基于预训练模型和递进式卷积网络的命名实体识别方法技术

技术编号:37151919 阅读:21 留言:0更新日期:2023-04-06 22:08
本发明专利技术涉及一种基于预训练语言模型和递进式卷积网络的命名实体识别方法,包括下列顺序的步骤:以预训练语言模型为基础,编码自然语言,得到表示集合LS;将表示集合LS输入递进式卷积网络模块,利用递进式卷积网络模块从低层到高层递进式融合相邻两层的编码,得到融合了预训练语言模型所有层特性的聚合分布式表示AR

【技术实现步骤摘要】
一种基于预训练模型和递进式卷积网络的命名实体识别方法


[0001]本专利技术涉及自然语言处理
,尤其是一种基于预训练模型和递进式卷积网络的命名实体识别方法。

技术介绍

[0002]命名实体识别是信息提取的子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。自然语言中的命名实体如人名、地名、组织机构名通常作为主语、宾语,它们直接决定了自然语言的语义,所以命名实体识别的好坏直接影响到下游信息抽取、问答系统、机器翻译等任务能否有效进行。
[0003]命名实体识别的方法从模型的层面,可以分为基于规则的方法、无监督学习方法、有监督学习方法。早期基于词典和规则的命名实体识别方法需要构建合适的词典、规则;基于机器学习和深度学习的有监督命名实体识别方法主要有隐马尔可夫模型、条件随机场、长短期记忆网络等。这类有监督方法将命名实体识别任务视为序列标注问题,在给定数据集上进行监督学习,赋予模型识别命名实体的能力。
[0004]但由于标注数据的稀缺,人们开始向着无监督学习发展,其中在大规模语料库上通过无监督学习得到的预训练语言模型在最近几年被不断提出。具体来说现有的方法是先将一个大型多层的深度语言模型在大量的没有标签的数据文本中进行自监督学习,使得模型学习到句子词语之间的关系,由此通过预训练语言模型获得有效的自然语言分布式表示,再针对不同的下游任务,在数据集上微调模型。这种“预训练+微调”的范式,区别于传统机器学习和深度学习在数据集上进行监督学习的方法,其利用无监督学习得到的预训练语言模型对自然语言进行更有效的表示,进而增强模型的命名实体识别能力。
[0005]现有的通过预训练语言模型获取有效的自然语言分布式表示基本上是用最后一层编码分布式表示,例如BERT,粒度较粗,没有充分挖掘其在大规模语料库上学习到的不同语言特性。同时将预训练+微调运用到命名实体识别的研究目前还较少。

技术实现思路

[0006]为解决基于预训练语言模型进行命名实体识别过程中对预训练语言模型信息挖掘不充分的缺陷,本专利技术的目的在于提供一种能够提升命名实体识别任务的性能的基于预训练语言模型和递进式卷积网络的命名实体识别方法。
[0007]为实现上述目的,本专利技术采用了以下技术方案:一种基于预训练语言模型和递进式卷积网络的命名实体识别方法,该方法包括下列顺序的步骤:
[0008](1)以预训练语言模型为基础,编码自然语言,得到表示集合LS;
[0009](2)将表示集合LS输入递进式卷积网络模块,利用递进式卷积网络模块从低层到高层递进式融合相邻两层的编码,得到融合了预训练语言模型所有层特性的聚合分布式表示AR
c

[0010](3)利用CRF模型即条件随机场解码聚合分布式表示AR
c
,实现命名实体识别。
[0011]所述步骤(1)具体包括以下步骤:
[0012](1a)生成预训练语言模型的输入嵌入Embedding,预训练语言模型在训练时需要输入三种数据类型:
[0013]分词编号word_ids,代表自然句子S中每个词的编号;
[0014]句子编号segment_ids,表示对两个输入自然句子S的区分;
[0015]位置编码position,表示每个词在自然句子S中所在的位置;
[0016]预训练语言模型将自然语言即自然句子S的每个单词的三种数据类型进行拼接得到最终的编码向量,作为自然句子S的输入嵌入Embedding;
[0017](1b)将输入嵌入Embedding转换成全文增强语义表示:将自然句子S的输入嵌入Embedding输入至预训练语言模型中,预训练语言模型提取出自然句子S中每个字符上下文信息,最终得到自然句子S的表示集合LS,如式(1)所示:
[0018][0019]其中,L
i
∈R
n
×
h
,i∈{1,2,

,l}表示预训练语言模型第i层编码的自然句子S的句子表示,l是预训练语言模型的深度,n、h分别表示自然句子S的长度、预训练语言模型的隐层维度。
[0020]所述步骤(2)具体包括以下步骤:
[0021](2a)设计递进式卷积网络模块,该模块为多层深度结构,深度c为l

1,且每一层结构相同,递进式卷积网络每层由三部分组成:层拼接、卷积层、归一化,循环三层操作直至到达预训练语言模型编码的最后一层;
[0022](2b)将表示集合LS输入递进式卷积网络模块的层拼接,层拼接将前一层输出的融合表示AR
i
‑1∈R
n
×
h
与当前层的句子表示L
i
∈R
n
×
h
拼接起来,得到多维度混合表示MR
i
∈R2×
n
×
h
,如式(2)所示:
[0023]MR
i
=concat(AR
i
‑1,L
i
)=[AR
i
‑1;L
i
]ꢀꢀ
(2)
[0024](2c)卷积层将前一层输出的融合表示AR
i
‑1和当前层句子表示L
i
融合,即对于递进式卷积网络模块第c层的卷积层,其输入为MR
i
,卷积核为k
c
∈R2×
w
×
b
×1,w和b分别为卷积核的长、宽,卷积层计算过程如式(3)所示,:
[0025][0026][0027]式中,E
c
∈R
w
×
b
为当前卷积层输出,LR
x,y
为当前层的句子表示x行y列的元素,E
ci,j
为E
c
矩阵i行j列的元素,AR
x,y
为AR矩阵x行y列的元素;
[0028](2d)最后的归一化层保证当前层卷积后的句子表示能够与卷积之前量级上保持一致,有利于下一层的融合,即给定E
c
,其归一化值AR
c
由式(4)计算得到:
[0029][0030]其中,g
i
,b是可训练参数,从式(4)看出,该归一化方法在句子嵌入的同一隐层维度上进行归一化;归一化值AR
c
即为聚合分布式表示,其中,c=l

1,n为句子长度,u
i
为E
c
第i列的平均数,σ
i
为E
c
第i列的方差。
[0031]所述步骤(3)具体包括以下步骤:
[0032](3a)得到概率矩阵P:将聚合分布式表示AR
c
输入CRF模型中,通过其中全连接层转化为概率矩阵P,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于预训练语言模型和递进式卷积网络的命名实体识别方法,其特征在于:该方法包括下列顺序的步骤:(1)以预训练语言模型为基础,编码自然语言,得到表示集合LS;(2)将表示集合LS输入递进式卷积网络模块,利用递进式卷积网络模块从低层到高层递进式融合相邻两层的编码,得到融合了预训练语言模型所有层特性的聚合分布式表示AR
c
;(3)利用CRF模型即条件随机场解码聚合分布式表示AR
c
,实现命名实体识别。2.根据权利要求1所述的基于预训练语言模型和递进式卷积网络的命名实体识别方法,其特征在于:所述步骤(1)具体包括以下步骤:(1a)生成预训练语言模型的输入嵌入Embedding,预训练语言模型在训练时需要输入三种数据类型:分词编号word_ids,代表自然句子S中每个词的编号;句子编号segment_ids,表示对两个输入自然句子S的区分;位置编码position,表示每个词在自然句子S中所在的位置;预训练语言模型将自然语言即自然句子S的每个单词的三种数据类型进行拼接得到最终的编码向量,作为自然句子S的输入嵌入Embedding;(1b)将输入嵌入Embedding转换成全文增强语义表示:将自然句子S的输入嵌入Embedding输入至预训练语言模型中,预训练语言模型提取出自然句子S中每个字符上下文信息,最终得到自然句子S的表示集合LS,如式(1)所示:其中,L
i
∈R
n
×
h
,i∈{1,2,

,l}表示预训练语言模型第i层编码的自然句子S的句子表示,l是预训练语言模型的深度,n、h分别表示自然句子S的长度、预训练语言模型的隐层维度。3.根据权利要求1所述的基于预训练语言模型和递进式卷积网络的命名实体识别方法,其特征在于:所述步骤(2)具体包括以下步骤:(2a)设计递进式卷积网络模块,该模块为多层深度结构,深度c为l

1,且每一层结构相同,递进式卷积网络每层由三部分组成:层拼接、卷积层、归一化,循环三层操作直至到达预训练语言模型编码的最后一层;(2b)将表示集合LS输入递进式卷积网络模块的层拼接,层拼接将前一层输出的融合表示AR
i
‑1∈R
n
×
h
与当前层的句子表示L
i
∈R
n
×
h
拼接起来,得到多维度混合表示MR
i
∈R2×
n
×
h
,如式(2)所示:MR
i
=concat(AR
i
‑1,L
i
)=[AR
i
‑1;L
i
]
ꢀꢀ
(2)(2c)卷积层将前一层输出的融合表示AR
i
‑1和当前层句子表示L
i
融合,即对于递进式卷积网络模块第c层的卷积层,其输入为MR
i
,卷积核为k
c
∈R2×

【专利技术属性】
技术研发人员:王儒敬计洁刘海燕李志远金洲胡宜敏王雪史杨张永恒
申请(专利权)人:中科合肥智慧农业协同创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1