【技术实现步骤摘要】
一种基于预训练模型和递进式卷积网络的命名实体识别方法
[0001]本专利技术涉及自然语言处理
,尤其是一种基于预训练模型和递进式卷积网络的命名实体识别方法。
技术介绍
[0002]命名实体识别是信息提取的子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量、货币值、百分比等。自然语言中的命名实体如人名、地名、组织机构名通常作为主语、宾语,它们直接决定了自然语言的语义,所以命名实体识别的好坏直接影响到下游信息抽取、问答系统、机器翻译等任务能否有效进行。
[0003]命名实体识别的方法从模型的层面,可以分为基于规则的方法、无监督学习方法、有监督学习方法。早期基于词典和规则的命名实体识别方法需要构建合适的词典、规则;基于机器学习和深度学习的有监督命名实体识别方法主要有隐马尔可夫模型、条件随机场、长短期记忆网络等。这类有监督方法将命名实体识别任务视为序列标注问题,在给定数据集上进行监督学习,赋予模型识别命名实体的能力。
[0004]但由于标注数据的稀缺,人们开始向着无监督学习发展,其中在大规模语料库上通过无监督学习得到的预训练语言模型在最近几年被不断提出。具体来说现有的方法是先将一个大型多层的深度语言模型在大量的没有标签的数据文本中进行自监督学习,使得模型学习到句子词语之间的关系,由此通过预训练语言模型获得有效的自然语言分布式表示,再针对不同的下游任务,在数据集上微调模型。这种“预训练+微调”的范式,区别于传统机器学习和深度学习在数据集上进行监督学习的方法,其利 ...
【技术保护点】
【技术特征摘要】
1.一种基于预训练语言模型和递进式卷积网络的命名实体识别方法,其特征在于:该方法包括下列顺序的步骤:(1)以预训练语言模型为基础,编码自然语言,得到表示集合LS;(2)将表示集合LS输入递进式卷积网络模块,利用递进式卷积网络模块从低层到高层递进式融合相邻两层的编码,得到融合了预训练语言模型所有层特性的聚合分布式表示AR
c
;(3)利用CRF模型即条件随机场解码聚合分布式表示AR
c
,实现命名实体识别。2.根据权利要求1所述的基于预训练语言模型和递进式卷积网络的命名实体识别方法,其特征在于:所述步骤(1)具体包括以下步骤:(1a)生成预训练语言模型的输入嵌入Embedding,预训练语言模型在训练时需要输入三种数据类型:分词编号word_ids,代表自然句子S中每个词的编号;句子编号segment_ids,表示对两个输入自然句子S的区分;位置编码position,表示每个词在自然句子S中所在的位置;预训练语言模型将自然语言即自然句子S的每个单词的三种数据类型进行拼接得到最终的编码向量,作为自然句子S的输入嵌入Embedding;(1b)将输入嵌入Embedding转换成全文增强语义表示:将自然句子S的输入嵌入Embedding输入至预训练语言模型中,预训练语言模型提取出自然句子S中每个字符上下文信息,最终得到自然句子S的表示集合LS,如式(1)所示:其中,L
i
∈R
n
×
h
,i∈{1,2,
…
,l}表示预训练语言模型第i层编码的自然句子S的句子表示,l是预训练语言模型的深度,n、h分别表示自然句子S的长度、预训练语言模型的隐层维度。3.根据权利要求1所述的基于预训练语言模型和递进式卷积网络的命名实体识别方法,其特征在于:所述步骤(2)具体包括以下步骤:(2a)设计递进式卷积网络模块,该模块为多层深度结构,深度c为l
‑
1,且每一层结构相同,递进式卷积网络每层由三部分组成:层拼接、卷积层、归一化,循环三层操作直至到达预训练语言模型编码的最后一层;(2b)将表示集合LS输入递进式卷积网络模块的层拼接,层拼接将前一层输出的融合表示AR
i
‑1∈R
n
×
h
与当前层的句子表示L
i
∈R
n
×
h
拼接起来,得到多维度混合表示MR
i
∈R2×
n
×
h
,如式(2)所示:MR
i
=concat(AR
i
‑1,L
i
)=[AR
i
‑1;L
i
]
ꢀꢀ
(2)(2c)卷积层将前一层输出的融合表示AR
i
‑1和当前层句子表示L
i
融合,即对于递进式卷积网络模块第c层的卷积层,其输入为MR
i
,卷积核为k
c
∈R2×
【专利技术属性】
技术研发人员:王儒敬,计洁,刘海燕,李志远,金洲,胡宜敏,王雪,史杨,张永恒,
申请(专利权)人:中科合肥智慧农业协同创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。