当前位置: 首页 > 专利查询>天津大学专利>正文

一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法技术

技术编号:39006989 阅读:6 留言:0更新日期:2023-10-07 10:38
本发明专利技术公开一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法,包括:利用参数有效化提示微调在论元对周围插入数个软提示词作为全局语境向量,冻结预训练模型本身的所有参数,驱动输入的嵌入表示进行更新,在保留预训练知识的情况下获取特定篇章论元的语义向量表示;替换掩码语言模型原始词表映射为篇章关系多层次映射矩阵,构成基于提示学习的篇章关系多层分类器;提出一种层次标签精炼的方法,在标签层次仅保存最底层标签嵌入,依据已有的标签先验自下而上地将细粒度标签语义泛化为更粗粒度的标签表示,在训练更新过程中产生标签层次间的语义关联;对篇章关系多个层次进行联合学习,增强在低资源情况下模型层次化识别能力。型层次化识别能力。型层次化识别能力。

【技术实现步骤摘要】
一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法


[0001]本专利技术涉及自然语言处理
,具体为一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法。

技术介绍

[0002]隐式篇章关系识别是文本分析中最重要的子任务之一,其目的是在没有显式连接词的指导下挖掘两个篇章论元之间的篇章关系。由于缺少连接词,模型只能通过论点之间的实体指代、语义线索来识别特定的篇章关系,这使得隐式篇章关系识别成为一项具有挑战性的任务。通过对该任务更深入的研究,有利于提升对于文本摘要,对话摘要和事件关系抽取等一系列的下游任务的性能。同时,篇章关系在大多数标注体系中被标注为多级粒度标签,并普遍认为在标注时为方便分类加入的隐式连接词是隐式篇章关系任务中最细粒度的篇章关系标签。
[0003]隐式篇章关系识别最初的研究大多基于人类制定的相关语言学特征来进行概率统计模型的构建,如词汇的情感极性、动词、词对以及语境信息等。随着深度学习的不断演进,更多的方法通过循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convoluted Neural Network,CNN)以及长短时记忆网络(Long Short Term Memory,LSTM)来着重提取论元对间的语义交互信息;近来,由于基于自注意力机制的预训练语言模型(Pre

trained Language Models,PLMs)的出现,该任务通过论元间注意力的交互挖掘取得了非常显著的提升。
[0004]之前的部分工作注意到了隐式篇章关系识别任务的数据稀缺性,即篇章关系标准数据集的数据量不足以支持深度神经网络来准确描述特定于任务的高维特征空间。同时,由于当前数据集类别间数据分布非常不平衡,并且大多数类别存在数据稀缺的问题,而层次语义的建模非常依赖于不同类别充足数据的支撑,致使在现有情况下完成对隐式篇章关系层次化结构的建模成为一个极其困难的问题。前人的方法大多主要通过数据增强以及知识增强的方式通过数据缓解这个问题。对于隐式篇章关系识别的数据增强方法主要有显式篇章关系数据增强、跨语言数据增强以及无监督数据增强;而知识增强的方法主要包括实体增强、知识图谱增强以及事件知识增强。然而,这些方法存在着一些显著的不足:1)标注足够的隐式篇章关系数据和引入恰当的任务相关知识的难度是非常大的;2)数据增强中的噪声数据会驱使模型偏离目标特征分布,同时不合理知识的注入会加剧预训练原始特征空间中知识的流失。
[0005]可以发现,隐式篇章关系识别对于数据稀缺的解决方案大多是从数据和知识扩充层面进行考量,而没有研究从调整模型参数搜索空间的角度予以解决。最近,参数有效化的提示微调方法在低资源场景下显示出卓越的性能。它们冻结掩码语言模型中的大部分或所有参数,并利用一些额外的参数将近似过程限制在小的流形当中,从而减少了模型对于数据规模的依赖。受上述研究的启发,利用参数有效化提示微调方法来驱动输入匹配预训练
特征空间。然而这种方法并不能建模隐式篇章关系识别独有的层次化类别特征,因此如何将层次化指导信息注入到参数有效化提示微调中的软提示中,并且避免引入更多额外参数导致预训练原始空间中的知识流失成为了主要的建模目标。

技术实现思路

[0006]本专利技术的目的是为了克服现有技术中的不足,提供一种能够在数据稀缺情况下实现篇章关系层次化有效建模问题的融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法。
[0007]本专利技术提出了一种参数有效化提示微调的多层次隐式篇章关系识别方法,该方法从模型侧解决了由数据稀缺问题导致的训练不足问题,以及在提示学习的标签嵌入中注入层次化指导信息。具体而言,基于提示学习的方法一般由两部分组成:模板工程和提示标签词映射。对于输入的模板的制定,本专利技术没有使用人类构造的手动模板,而是在模板中注入软提示,并将其视为用于挖掘参数独特模式的可学习全局语境向量,同时冻结预训练语言模型的所有参数,从而仅通过更新软提示词调整输入特征以对齐预训练语义空间下的目标分布。然而,上述在输入层次对于分布的对齐是基于边缘分布的,所以对于掩码语言模型而言,在输出层将标签词映射到特定隐式篇章关系类别的标签词映射是至关重要的。然而,现存的这些标签词映射方法无法学习篇章关系之间的层次联系连接。目前,现有的方法需要引入特征对齐映射或额外的复杂结构(例如,图卷积神经网络,条件随机场网络),这将引入了庞大的参数量。因此,本专利技术提出了一种新的层次标签精炼方法,将层次化信息注入到标签词映射过程中。在方法中,只有最细粒度的标签词是参数化的,而其余层次的标签嵌入都是自下而上精炼而成,从而在每次训练迭代过程中将分散的标签语义不断聚合为更加泛化的语义,进而实现动态更新层次化标签嵌入的功能。最终,本专利技术对各个篇章关系层次进行联合学习,完成了层次内和层次间的标签语义信息整合过程。
[0008]本专利技术的目的通过以下技术方案实现:
[0009](101)基于掩码语言模型的篇章论元语义表示获取
[0010]首先采用改进后的预训练语言模型进行深层篇章论元语义编码;具体方式是采用提示微调的方式,在输入中插入N1个软提示词个软提示词其中V表示词表集合,下同;需要注意的是,为了方便描述,后文叙述的提示词均指软提示词。这些软提示词可以在训练过程通过反向传播的方式自行更新,从而帮助预训练模型适应于特定的任务;输入中的提示词一般插入在两个论元的周围,而标记[MASK]一般插入在两个论元x1和x2之间;通过这种方式来激发预训练过程凝练的丰富语义知识,拉近预训练任务和下游任务的形式差距;经过模板构造后的输入如公式(1)所示:
[0011][0012]其中[p
×
n
i
]表示该位置插入了n
i
个连续的软提示词,n
i
(i∈{1,2,3,4})表示各个位置插入的软提示词的数量,并且满足
[0013]获得模板构造完成的后,将其送入到掩码语言模型MLM_Encoder中进行进一步编码,并获取掩码语言模型[MASK]标记位置的输出作为论元对表示过程如公式(2)(3)所示:
[0014][0015][0016]其中S为的长度,H∈R
S
×
d
是编码器最终输出,其中d为隐藏层输出维度,下同,h
s
(s∈{1,2,...,S})表示第s个位置的隐藏层表示,h
[MASK]为[MASK]位置的隐藏层表示。
[0017](201)构建基于提示学习的篇章关系多层分类器
[0018]为了能够让模型挖掘隐式篇章关系的类别特征,这里采用N2个软提示词来作为标签提示来指导类别预测。这里的N2与层次隐式篇章关系所需总分类数一致,M为篇章关系的总层次数,L
(m)
表示第m层次的标签集合,|L
(m)
|则表示该层次的标签数量;
[0019]对于所有提示词,将其作为特殊标识插入到词表当中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法,其特征在于,包括以下步骤:(1)利用参数有效化提示微调在论元对周围插入数个软提示词作为全局语境向量,并冻结预训练模型本身的所有参数,从而驱动输入的嵌入表示进行更新,挖掘隐式篇章关系中论元对涵盖的独特模式以及匹配预训练语言模型预训练过程中的语义特征空间,从而在保留预训练知识的情况下获取特定篇章论元的语义向量表示;(2)替换掩码语言模型原本的词表,并将词表映射为对应篇章关系任务标签的标签词映射矩阵,构成新的掩码语言分类器,通过新分类器将(1)中获得的论元对语义向量表示映射为篇章关系类别的概率分布,并通过交叉熵损失函数来计算训练损失,从而更新整个掩码语言模型的可训练参数;(3)提出一种层次标签精炼的方法,在标签层次,仅保存(2)的掩码语言分类器中最底层的标签嵌入的参数,先通过掩码语言模型提取最细粒度的标签语义知识,而后依据已有的标签先验自下而上地将细粒度标签语义泛化为粗粒度的标签语义表示,由此产生标签层次之间的语义关联,并随着模型的不断更新而探索论元对和篇章关系层次标签相互动态感知的有效表示;(4)通过对篇章关系多个层次进行联合学习,并配合(3)中的方法显式的引入层次化指导,从而将层次化的指导信息注入到提示词中,并仅通过更新提示词以及最细粒度的标签嵌入,来实现小规模数据场景下隐式篇章关系标签层次语义和结构信息的相互感知以提升系统性能完善。2.根据权利要求1所述一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法,其特征在于,步骤(1)具体包括:(101)基于掩码语言模型的篇章论元语义表示获取首先采用改进后的预训练语言模型进行深层篇章论元语义编码;具体方式是采用提示微调的方式,在输入中插入N1个软提示词个软提示词其中V表示词表集合,下同;需要注意的是,为了方便描述,后文叙述的提示词均指软提示词,这些软提示词可以在训练过程通过反向传播的方式自行更新,从而帮助预训练模型适应于特定的任务;输入中的提示词一般插入在两个论元的周围,而标记[MASK]一般插入在两个论元x1和x2之间;通过这种方式来激发预训练过程凝练的丰富语义知识,拉近预训练任务和下游任务的形式差距;经过模板构造后的输入如公式(1)所示:其中[p
×
n
i
]表示该位置插入了n
i
个连续的软提示词,n
i
(i∈{1,2,3,4})表示各个位置插入的软提示词的数量,并且满足获得模板构造完成的后,将其送入到掩码语言模型MLM_Encoder中进行进一步编码,并获取掩码语言模型[MASK]标记位置的输出作为论元对表示过程如公式(2)(3)所示:过程如公式(2)(3)所示:其中S为的长度,H∈R
S
×
d
是编码器最终输出,其中d为隐藏层输出维度,下同,h
s
(s∈
{1,2,...,S})表示第s个位置的隐藏层表示,h
[MASK]
为[MASK]位置的隐藏层表示。3.根据权利要求1所述一种融合参数有效化和关系标签层次语义先验的隐式篇章关系识别方法,其特征在于,步骤(2)具体包括:(201)构建基于提示学习的篇章关系多层分类器为了能够让模型挖掘隐式篇章关系的类别特征,这里采用N2个软提示词来作为标签提示来指导类别预测,这里的N2与层次隐式篇章关系所需总分类数一致,M为篇章关系的总层次数,L
(m)
表示第m层次的标签集合,|L
(m)
|则表示该层次的标签数量;对于所有提示词,将其作为特殊标识插入到词表当中,并将其对应的嵌入层向量进行随机初始化;特别地,对于标签提示词,其通过嵌入层∈获取对应的标签嵌入矩阵的过程如公式(4)所示:其中表示第m层次由软提示词映射而成的标签嵌入组成的矩阵,concat表示对多个嵌入矩阵按第一维进行拼接的函数;(202)单层次篇章关系分类损失传播初步,分别对篇章关系的每一层次进行单独分类,获取到对应层次的类别预测概率分布如公式(5)所示:其中T表示矩阵的转置;对应层次的损失函...

【专利技术属性】
技术研发人员:贺瑞芳赵浩东
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1