基于对抗插值序列标注数据增强方法、装置、设备及介质制造方法及图纸

技术编号:29789949 阅读:16 留言:0更新日期:2021-08-24 18:08
本发明专利技术公开了一种基于对抗插值的序列标注数据增强方法、装置、设备及介质,所述方法包括:获取包含序列标注的第一样本数据;将所述第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,根据所述候选词向量组成增强的第二样本数据;采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值,得到插值后的增强样本数据。根据本公开实施例提供的序列标注数据增强方法,利用语言模型来提供符合上下文约束的候选词向量,利用对抗插值来考虑任务特性,从而生成使机器学习算法容易产生误判的更难样本,提升序列模型在低资源下的效果,解决了标注数据少影响模型准确度的问题。

【技术实现步骤摘要】
基于对抗插值序列标注数据增强方法、装置、设备及介质
本专利技术涉及序列标注
,特别涉及一种基于对抗插值的序列标注数据增强方法、装置、设备及介质。
技术介绍
序列模型在中文分词、命名实体识别、实体以及关系抽取等方面有广泛的应用场景。线上场景使用序列标注会遇到标注数据少(低资源)的问题。在低资源的情况下,比如每个标注只有少量样本,模型可能会过拟合导致其性能不达预期。这种过拟合情况在数据稀缺的情况下更加明显,例如每个类别只有5个样本的极端情况。面对一个标注数据稀缺的低资源应用场景,数据增强是一种有效的技术方法,可以利用非常少量的标注语料得到一个有一定性能的基础模型,帮助破解低资源困局、减少对标注的需求,快速进入模型优化的迭代开发。但是,现有技术中的数据增强方法很难对序列标注的数据进行增强。在对序列数据进行增强的时候需要考虑到上下文和任务特性。之前的分类样本增强的方式因其忽略了任务特性而不能达到预期效果。而基于插值的数据增强利用两个不同类别的真实样本进行插值生成一个插值样本,会因插值比例不同而生成出不同“难易”程度的样本,从而影响到序列标注模型的效果。
技术实现思路
本公开实施例提供了一种基于对抗插值的序列标注数据增强方法、装置、设备及介质。解决了序列标注模型样本数据少,影响模型训练效果的技术问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。第一方面,本公开实施例提供了一种基于对抗插值的序列标注数据增强方法,包括:获取包含序列标注的第一样本数据;将第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,根据候选词向量组成增强的第二样本数据;采用对抗插值的方法对第一样本数据和第二样本数据进行插值,得到插值后的增强样本数据。在一个可选地实施例中,预设的语言模型包括依次连接的预测层、排序选取层、归一化层以及替换层。在一个可选地实施例中,将第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,包括:预测层根据上下文语义约束对第一样本数据中的掩码字进行预测,并给出掩码字对应的可能字以及概率;排序选取层对各个可能字对应的概率进行从大到小排序,并选取预设数量个概率较大的可能字;归一化层对选取的可能字及其对应的概率进行归一化处理,得到归一化后的概率分布;替换层将归一化后的可能字及其对应的概率组成候选词向量,用候选词向量替换掩码字。在一个可选地实施例中,归一化层用于对选取的可能字及其对应的概率进行归一化处理,包括:归一化层通过Softmax函数进行归一化处理,归一化处理的公式如下所示:其中,Si表示可能字i的Softmax值,ei表示可能字i的指数,∑jej表示选取的所有可能字的指数和。在一个可选地实施例中,采用对抗插值的方法对第一样本数据和第二样本数据进行插值,包括:根据Beta分布中的随机插值比例以及第一样本数据和第二样本数据进行随机插值;通过梯度下降方法调整随机插值比例,得到对抗方向上的最新插值比例;根据最新插值比例重新进行插值运算,得到插值后的增强样本数据。在一个可选地实施例中,根据Beta分布中的随机插值比例以及第一样本数据和第二样本数据进行随机插值,包括:从第一样本数据和第二样本数据的混合样本数据中随机抽取两个样本;从Beta分布中随机抽取一个插值比例,得到随机插值比例;根据抽取的样本数据、随机插值比例以及mixup算法进行随机插值。在一个可选地实施例中,通过梯度下降方法调整随机插值比例,得到对抗方向上的最新插值比例,包括:根据预设的损失函数计算每个位置的插值损失;对随机插值比例求偏导,根据随机插值比例的偏导值以及损失值计算当前的梯度;根据得到的梯度更新随机插值比例,得到对抗方向上的最新插值比例。第二方面,本公开实施例提供了一种基于对抗插值的序列标注数据增强装置,包括:获取模块,用于获取包含序列标注的第一样本数据;第一数据增强模块,用于将第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,根据候选词向量组成增强的第二样本数据;第二数据增强模块,用于采用对抗插值的方法对第一样本数据和第二样本数据进行插值,得到插值后的增强样本数据。第三方面,本公开实施例提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述实施例提供的基于对抗插值的序列标注数据增强方法的步骤。第四方面,本公开实施例提供了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述实施例提供的基于对抗插值的序列标注数据增强方法的步骤。本公开实施例提供的技术方案可以包括以下有益效果:本公开实施例提供的基于对抗插值的序列标注数据增强方法,利用预训练的语言模型来提供符合上下文约束的候选词向量,利用对抗插值来考虑任务特性,从而生成使机器学习算法容易产生误判的更难样本,从而更好的正则化模型,提升序列模型在低资源下的效果,解决了标注数据少影响模型准确度的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种基于对抗插值的序列标注数据增强方法的实施环境图;图2是根据一示例性实施例示出的一种计算机设备的内部结构图;图3是根据一示例性实施例示出的一种基于对抗插值的序列标注数据增强方法的流程示意图;图4是根据一示例性实施例示出的一种根据语言模型得到候选词向量的方法示意图;图5是根据一示例性实施例示出的一种对抗插值方法的示意图;图6是根据一示例性实施例示出的一种序列标注样本的示意图;图7是根据一示例性实施例示出的一种预训练的语言模型的示意图;图8是根据一示例性实施例示出的一种随机插值的示意图;图9是根据一示例性实施例示出的一种基于对抗插值的序列标注数据增强装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一字段及算法确定模块成为第二字段及算法确本文档来自技高网...

【技术保护点】
1.一种基于对抗插值的序列标注数据增强方法,其特征在于,包括:/n获取包含序列标注的第一样本数据;/n将所述第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,根据所述候选词向量组成增强的第二样本数据;/n采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值,得到插值后的增强样本数据。/n

【技术特征摘要】
1.一种基于对抗插值的序列标注数据增强方法,其特征在于,包括:
获取包含序列标注的第一样本数据;
将所述第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,根据所述候选词向量组成增强的第二样本数据;
采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值,得到插值后的增强样本数据。


2.根据权利要求1所述的方法,其特征在于,所述预设的语言模型包括依次连接的预测层、排序选取层、归一化层以及替换层。


3.根据权利要求2所述的方法,其特征在于,所述将所述第一样本数据输入预设的语言模型中,输出符合上下文语义约束的候选词向量,包括:
所述预测层根据上下文语义约束对所述第一样本数据中的掩码字进行预测,并给出所述掩码字对应的可能字以及概率;
所述排序选取层对各个可能字对应的概率进行从大到小排序,并选取预设数量个概率较大的可能字;
所述归一化层对选取的可能字及其对应的概率进行归一化处理,得到归一化后的概率分布;
所述替换层将归一化后的可能字及其对应的概率组成候选词向量,用候选词向量替换所述掩码字。


4.根据权利要求3所述的方法,其特征在于,所述归一化层用于对选取的可能字及其对应的概率进行归一化处理,包括:
所述归一化层通过Softmax函数进行归一化处理,归一化处理的公式如下所示:



其中,Si表示可能字i的Softmax值,ei表示可能字i的指数,∑jej表示选取的所有可能字的指数和。


5.根据权利要求1所述的方法,其特征在于,采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值,包括:
根据Beta分布中的随机插值比例以及所述第一样本数据和第二样本数据进行随机插值;
通过梯度下降方法调整所述随机插值比例,得到对抗方向上的最新插值...

【专利技术属性】
技术研发人员:刘广
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1