基于对抗插值序列标注数据增强方法、装置、设备及介质制造方法及图纸

技术编号：29789949 阅读：16 留言：0更新日期：2021-08-24 18:08

本发明专利技术公开了一种基于对抗插值的序列标注数据增强方法、装置、设备及介质，所述方法包括：获取包含序列标注的第一样本数据；将所述第一样本数据输入预设的语言模型中，输出符合上下文语义约束的候选词向量，根据所述候选词向量组成增强的第二样本数据；采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值，得到插值后的增强样本数据。根据本公开实施例提供的序列标注数据增强方法，利用语言模型来提供符合上下文约束的候选词向量，利用对抗插值来考虑任务特性，从而生成使机器学习算法容易产生误判的更难样本，提升序列模型在低资源下的效果，解决了标注数据少影响模型准确度的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于对抗插值序列标注数据增强方法、装置、设备及介质
本专利技术涉及序列标注
，特别涉及一种基于对抗插值的序列标注数据增强方法、装置、设备及介质。
技术介绍
序列模型在中文分词、命名实体识别、实体以及关系抽取等方面有广泛的应用场景。线上场景使用序列标注会遇到标注数据少(低资源)的问题。在低资源的情况下，比如每个标注只有少量样本，模型可能会过拟合导致其性能不达预期。这种过拟合情况在数据稀缺的情况下更加明显，例如每个类别只有5个样本的极端情况。面对一个标注数据稀缺的低资源应用场景，数据增强是一种有效的技术方法，可以利用非常少量的标注语料得到一个有一定性能的基础模型，帮助破解低资源困局、减少对标注的需求，快速进入模型优化的迭代开发。但是，现有技术中的数据增强方法很难对序列标注的数据进行增强。在对序列数据进行增强的时候需要考虑到上下文和任务特性。之前的分类样本增强的方式因其忽略了任务特性而不能达到预期效果。而基于插值的数据增强利用两个不同类别的真实样本进行插值生成一个插值样本，会因插值比例不同而生成出不同“难易”程度的样本，从而影响到序列标注模型的效果。
技术实现思路
本公开实施例提供了一种基于对抗插值的序列标注数据增强方法、装置、设备及介质。解决了序列标注模型样本数据少，影响模型训练效果的技术问题。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为...

【技术保护点】
1.一种基于对抗插值的序列标注数据增强方法,其特征在于,包括：/n获取包含序列标注的第一样本数据；/n将所述第一样本数据输入预设的语言模型中，输出符合上下文语义约束的候选词向量，根据所述候选词向量组成增强的第二样本数据；/n采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值，得到插值后的增强样本数据。/n

【技术特征摘要】
1.一种基于对抗插值的序列标注数据增强方法,其特征在于,包括：
获取包含序列标注的第一样本数据；
将所述第一样本数据输入预设的语言模型中，输出符合上下文语义约束的候选词向量，根据所述候选词向量组成增强的第二样本数据；
采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值，得到插值后的增强样本数据。

2.根据权利要求1所述的方法，其特征在于，所述预设的语言模型包括依次连接的预测层、排序选取层、归一化层以及替换层。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一样本数据输入预设的语言模型中，输出符合上下文语义约束的候选词向量，包括：
所述预测层根据上下文语义约束对所述第一样本数据中的掩码字进行预测，并给出所述掩码字对应的可能字以及概率；
所述排序选取层对各个可能字对应的概率进行从大到小排序，并选取预设数量个概率较大的可能字；
所述归一化层对选取的可能字及其对应的概率进行归一化处理，得到归一化后的概率分布；
所述替换层将归一化后的可能字及其对应的概率组成候选词向量，用候选词向量替换所述掩码字。

4.根据权利要求3所述的方法，其特征在于，所述归一化层用于对选取的可能字及其对应的概率进行归一化处理，包括：
所述归一化层通过Softmax函数进行归一化处理，归一化处理的公式如下所示：

其中，Si表示可能字i的Softmax值，ei表示可能字i的指数，∑jej表示选取的所有可能字的指数和。

5.根据权利要求1所述的方法，其特征在于，采用对抗插值的方法对所述第一样本数据和第二样本数据进行插值，包括：
根据Beta分布中的随机插值比例以及所述第一样本数据和第二样本数据进行随机插值；
通过梯度下降方法调整所述随机插值比例，得到对抗方向上的最新插值...

【专利技术属性】
技术研发人员：刘广，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人