用于小样本意图识别的完型填空式的数据增强方法技术

技术编号:35908780 阅读:18 留言:0更新日期:2022-12-10 10:47
本申请中一个或多个实施例提供了一种用于小样本意图识别的完型填空式的数据增强方法,内容包括:基于预训练语言模型构建完型填空式的数据增强任务用于意图识别,先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似,然后再基于度量分类采用有监督的对比学习方法,使得同一类别的意图样本在嵌入空间中更接近彼此,不同类别的意图样本更远离彼此,对比学习方法包括原型层面的对比学习和实例层面的对比学习。在不破坏句法结构和增加噪音的情况下产生有意义的数据,充分利用了有限的数据并获得可分离的嵌入。在嵌入空间中获得更好的距离分布,从而改善基于度量的分类方法的性能。类方法的性能。类方法的性能。

【技术实现步骤摘要】
用于小样本意图识别的完型填空式的数据增强方法


[0001]本专利技术属于意图识别
,具体涉及一种用于小样本意图识别的完型填空式的数据增强方法。

技术介绍

[0002]意图识别旨在从用户的话语中识别出用户的潜在意图,这是面向任务的对话系统中的关键组成部分。然而,一个实际的挑战是意图类别的数量增长速度快于人工注释数据的速度,导致许多新的意图类别只有少量数据可用。这种数据缺乏导致传统深度神经网络在少量训练数据上过拟合,严重影响了实际应用。因此,一些研究人员提出了小样本学习来解决数据稀缺问题。一种有效的方法是文本数据增强,但它总是生成噪声或无意义的数据。
[0003]在现实世界的应用中,新的意图类别迅速出现,并且只有有限的标注完备的数据,因此很难直接应用于优化现有的深度神经网络。这些网络一般都会包含一个预训练语言模型作为其主干,以将文本数据编码为连续的低维向量,例如BERT和RoBERTa。这样的模型总是具有多层的复杂架构,因此具有的参数量非常可观。如果在传统训练范式的基础上,直接利用少量训练数据更新深度神经网络模型的参数,模型将只能捕捉到局部特征,导致泛化能力不足和过拟合问题,即在训练集上表现良好,在测试集上表现不佳。为了处理这样的问题,Snell等人提出了少样本学习(FSL)策略来帮助模型仅在有限的数据中获得泛化能力。上述研究人员将小样本意图识别视为元学习问题。它通过一系列小的元任务来模拟小样本场景。这种方法广泛应用于关系分类、事件检测和意图检测等小样本文本分类任务领域。
[0004]一个主要的挑战是,基于元学习的小样本学习方法仍然很容易陷入因训练样本有限而导致的在偏差分布上过拟合的困境。一些研究人员试图通过数据增强方法来防止过拟合问题。其中一个关键思想是回译:将输入文本的其他语言表示翻译成初始语言。另一种常见的方法是利用外部知识库来获得与原始句子语义相似的表达。具体来说,Dopierre等人引入了多个知识库来生成原始输入的不同释义句子,而不是重新排序句子中的单词。然而,虽然回译可以生成相同语义的不同表达,但它在短文本中表现不佳。它生成的表达通常与原始输入句子相似甚至相同。而关于释义生成方法,我们认为它并不适合所有领域的文本增强,因为并不总是可以找到相对应的外部知识库。且,先前的数据增强相关方法,例如Liu等人提出的方法,训练效率低下,并且难以扩展到具有大量意图的任务。

技术实现思路

[0005]本专利技术要解决的技术问题是提供一种用于小样本意图识别的完型填空式的数据增强方法,以解决现有技术存在的上述至少一个问题。
[0006]基于上述目的,本申请中一个或多个实施例提供了一种用于小样本意图识别的完型填空式的数据增强方法,内容包括:基于预训练语言模型构建完型填空式的意图识别任务用于数据增强,先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似,然后再基于度量分类采用有监督的对比学习方法,使得同一类别的意图样本在嵌入空
间中更接近彼此,不同类别的意图样本更远离彼此,对比学习方法包括原型层面的对比学习和实例层面的对比学习。
[0007]基于本专利技术的上述技术方案,还可以作出如下改进:
[0008]可选的,所述无监督学习方法包括:以预训练语言模型作为特征提取器,采用标记来掩盖设定比例的输入词,根据输入句子的上下文的语义来预测这些被掩盖的标记;特征提取器通过加入两个特殊标记后,将完型填空式的意图识别任务中的句子编码为隐藏层向量表示,两个特殊标记分别表示完型填空式的意图识别任务中句子的开始和结束,该过程通过以下公式表示:
[0009][0010]其中,F(
·
)为特征提取器,T为完型填空式模板,[MASK]为被掩盖的单词的标记,Pat(T,x)为数据增强模式,x是输入句子,表示隐藏层向量,[CLS]和[SEP]分别表示开始和结束;
[0011]将隐藏层向量视为被掩盖的单词[MASK]的表示,将看作是根据模式Pat(T,x)生成的句子表示,其在语义上与输入句子x是相似的,所有输入样本上重复公式(1)得到相应的数据增强结果。
[0012]可选的,通过损失函数对预训练语言模型进行约束,用于削弱与输入句子的语义不匹配的向量,最终获得恰当的数据增强结果。
[0013]可选的,在不引入任何外部知识和标签的情况下,将输入句子x送入预训练语言模型中,获得其低维向量表示,将其表述为:
[0014][0015]其中,隐藏层向量表示为整个句子x,通过以下损失函数:
[0016][0017]用于缩小和之间的距离。
[0018]可选的,完成无监督的完型填空式数据增强之后,采用基于度量的原型网络作为分类器来检验数据增强的效果。
[0019]可选的,首先计算出同一类别下的样本的平均表示,并以此作为该类别的原型:
[0020][0021]其中,c
i
表示类别i的原型表示,K
i
表示在当前元任务T下的支持数据集中类别i的样本数量,为类别i中第k个句子的表示;通过这种原型表示,同一类别的样本到其中心的平均距离可以最短;同样地,基于通过原型计算公式(4),可以得到增强的原型c

i

[0022]可选的,为了使最终的原型更全面地覆盖其类别的共同特征,对输入样本的原型和数据增强的结果原型进行了加权,公式如下:
[0023][0024]其中,α是一个加权系数,以控制来自原始输入数据和增强数据的相应贡献;
[0025]给定一个分数函数s(
·

·
),原型网络通过计算查询嵌入向量和原型之间的相似度的softmax分布来预测查询实例的标签x
Q
,公式如下所示:
[0026][0027]其中,y是预测标签,x
Q
是当前元任务的查询集Q中的查询实例,j是真实标签,表示基于j类别的初始和增强数据的最终原型,选择余弦相似度作为s(
·

·
);学习通过最小化负对数概率:
[0028][0029]来进行。
[0030]可选的,为原型层面的对比学习引入基于对比学习的损失,以便于尽可能的将不同类别的原型分开,并使得不同类别的平均表征相互远离,通过以下公式表述:
[0031][0032]其中,s(
·

·
)是与公式中相同的相似性度量函数,因此,s(c
i
,c
i
)的值是一个常数1,将公式(4)简化为以下形式:
[0033][0034]其中,e是一个常数,为原型级的对比性损失。
[0035]可选的,在基于原型层面的对比学习引入实例层面的对比学习,以使得同一类别的实例相互接近,通过以下公式表述:
[0036][0037]其中,表示和的正例,包括原始语料的向量表示和增强的向量表示,它与它们属于同一类别,其中,同一类别的样本向量表示之间的相似度可以提高,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于小样本意图识别的完型填空式的数据增强方法,其特征是,包括:基于预训练语言模型构建完型填空式的数据增强任务用于意图识别,先采用无监督学习方法使得数据增强的结果在语义上与原始输入句子相似,然后再基于度量分类采用有监督的对比学习方法,使得同一类别的意图样本在嵌入空间中更接近彼此,不同类别的意图样本更远离彼此,对比学习方法包括原型层面的对比学习和实例层面的对比学习。2.如权利要求1所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,所述无监督学习方法包括:以预训练语言模型作为特征提取器,采用标记来掩盖设定比例的输入词,根据输入句子的上下文的语义来预测这些被掩盖的标记;特征提取器通过加入两个特殊标记后,将完型填空式的意图识别任务中的句子编码为隐藏层向量表示,两个特殊标记分别表示完型填空式的意图识别任务中句子的开始和结束,该过程通过以下公式表示:其中,F(
·
)为特征提取器,T为完型填空式模板,[MASK]为被掩盖的单词的标记,Pat(T,x)为数据增强模式,x是输入句子,表示隐藏层向量,[CLS]和[SEP]分别表示开始和结束;将隐藏层向量视为被掩盖的单词[MASK]的表示,将看作是根据模式Pat(T,x))生成的句子表示,其在语义上与输入句子x是相似的,所有输入样本上重复公式(1)得到相应的数据增强结果。3.如权利要求2所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,通过损失函数对预训练语言模型进行约束,用于削弱与输入句子的语义不匹配的向量,最终获得恰当的数据增强结果。4.如权利要求3所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,在不引入任何外部知识和标签的情况下,将输入句子x送入预训练语言模型中,获得其低维向量表示,将其表述为:其中,隐藏层向量表示为整个句子x,通过以下损失函数:用于缩小和之间的距离。5.如权利要求4所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,完成无监督的完型填空式数据增强之后,采用基于度量的原型网络作为分类器来检验数据增强的效果。6.如权利要求5所述的用于小样本意图识别的完型填空式的数据增强方法,其特征是,首先计算出同一类别下的样本的平均表示,并以此作为...

【专利技术属性】
技术研发人员:陈洪辉张鑫蔡飞江苗郑建明宋城宇邵太华郭昱普王梦如
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1