一种语料数据增强方法及设备技术

技术编号:39777321 阅读:9 留言:0更新日期:2023-12-22 02:23
本申请涉及自然语言处理技术领域,尤其涉及一种语料数据增强方法及设备,在本申请实施例中,电子设备通过获取用户配置的待处理的第一文本对应的必要字节,对第一文本进行标注,使得语言模型在进行语料数据增强时可以对第一文本中除必要字节外的其他字节,进行语料数据增强,实现了在语料数据增强的同时,增强后得到的第二文本中仍然会包含第一文本中的必要字节,实现了增强后的文本与输入的文本的一致性,提高了语料数据增强的效果

【技术实现步骤摘要】
一种语料数据增强方法及设备


[0001]本申请涉及自然语言处理
,尤其涉及一种语料数据增强方法及设备


技术介绍

[0002]在自然语言处理方面的语料数据增强中,有着传统的文本分类任务的简易数据扩充
(Easy Data Augmentation for Text Classification Tasks

EDA)
方法,例如同义词替换

随机替换

随机插入

随机删除;也有着根据基于
transformer
构建的双向语义编码表征模型
(Bidirectional Encoder Representations from Transformers

BERT)
等基于深度学习的语料数据增强方法

[0003]然而传统
EDA
方法在进行同义词替换

随机替换等替换时,容易对输入的文本中的重要内容进行替换,导致生成的文本不连贯,或失去了句子原本的意思

而在使用
BERT
进行语料数据增强时,可以产生大量的文本,但是同样也无法保证输入的文本中的重要内容仍然保留在生成的文本中

也就是说,现有的语料数据增强方法难以保证增强后的文本与输入的文本的一致性


技术实现思路

[0004]本申请提供了一种语料数据增强方法及设备,用以解决现有技术的语料数据增强方法难以保证增强后的文本与输入的文本的一致性的问题

[0005]第一方面,本申请实施例提供了一种语料数据增强方法,所述方法包括:
[0006]获取待处理的第一文本中包含的必要字节,并在所述第一文本中对所述必要字节进行标注;其中,所述必要字节为用户配置的;
[0007]将标注好的第一文本输入到语言模型中,使得所述语言模型对所述标注好的第一文本中除所述必要字节外的其他字节进行语料数据增强;
[0008]获取所述语言模型输出的增强后的第二文本

[0009]第二方面,本申请实施例还提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述所述语料数据增强方法的步骤

[0010]在本申请实施例中,电子设备获取待处理的第一文本中包含的必要字节,并在该第一文本中对该必要字节进行标注;其中,该必要字节为用户配置的;将标注好的第一文本输入到语言模型中,使得该语言模型对该标注好的第一文本中除该必要字节外的其他字节进行语料数据增强;获取该语言模型输出的增强后的第二文本

在本申请实施例中,电子设备通过获取用户配置的待处理的第一文本对应的必要字节,对第一文本进行标注,使得语言模型在进行语料数据增强时可以对第一文本中除必要字节外的其他字节,进行语料数据增强,实现了在语料数据增强的同时,增强后得到的第二文本中仍然会包含第一文本中的必要字节,实现了增强后的文本与输入的文本的一致性,提高了语料数据增强的效果

附图说明
[0011]为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0012]图1为本申请实施例提供的一种语料数据增强过程示意图;
[0013]图2为本申请实施例提供的语言模型的结构示意图;
[0014]图3为本申请实施例提供的语言模型进行语料数据增强的流程图;
[0015]图4为本申请实施例提供的判别器的工作示意图;
[0016]图5为本申请提供的语料数据增强的流程示意图;
[0017]图6为本申请实施例提供的语言模型的训练流程示意图;
[0018]图7为本申请实施例提供的一种语料数据增强装置结构示意图;
[0019]图8为本申请实施例提供的一种电子设备结构示意图

具体实施方式
[0020]为了使本申请的目的

技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围

[0021]已知的传统的语料数据增强的方法有
EDA
和回译
。EDA
方法包括同义词替换

随机插入

随机交换

随机删除;回译方法是先将原始文本翻译成第三方语言,再将文本从第三方语言翻译回原始语言

而上述所有方法均存在着不同程度的缺陷

同义词替换中的同义词都有着非常相似的词向量,所以在进行训练时原始文本和基于同义词替换增强后的文本会被当做几乎相同的句子,对数据集没有实际上的扩充;随机插入容易导致增强后的文本丧失了语义结构,使得增强后的文本缺少有价值的信息,同时插入的词汇与文本的关键词可能没有关联,使得增强后的文本不具有多样性;随机交换没有改变原始文本的词汇,对文本的泛化能力提升有限;随机删除容易导致原始文本中特征最强的词汇被删除,从而改变语义信息;回译方法往往一个输入语料只能扩充出一条输出文本,扩充出来的数据多样性有限

[0022]基于
BERT
的数据增强方法常见的有
Conditional BERT

Sim BERT。Conditional BERT
是在不打破句子兼容性的前提下,对文本中的词汇用双向语言模型生成的词汇进行替换,它的优点在于可以根据标签来进行词汇替换,因此生成的句子仍旧保持着积极或消极的句意

而它的缺点也是生成文本只能保持输入的原始文本的积极或者消极的句意,没有更细分的类别,从而使得原始的文本和生成的文本在句意上有所改变
。Sim BERT
是基于自行收集到的成对的句子对作为训练集,通过一句话来预测另一句话的任务

由于
Sim BERT
是基于句子对生成,造成了词槽内的重要内容可能会消失在生成的文本当中,无法保证输入的文本和生成的文本的一致性

[0023]基于此,为了实现增强后的文本与输入的文本的一致性,提高语料数据增强的效果,本申请实施例提供了一种语料数据增强方法及设备

[0024]在本申请实施例中,电子设备获取待处理的第一文本中包含的必要字节,并在该
第一文本中对该必要字节进行标注;其中,该必要字节为用户配置的;将标注好的第一文本输入到语言模型中,使得该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种语料数据增强方法,其特征在于,所述方法包括:获取待处理的第一文本中包含的必要字节,并在所述第一文本中对所述必要字节进行标注;其中,所述必要字节为用户配置的;将标注好的第一文本输入到语言模型中,使得所述语言模型对所述标注好的第一文本中除所述必要字节外的其他字节进行语料数据增强;获取所述语言模型输出的增强后的第二文本
。2.
根据权利要求1所述的方法,其特征在于,所述语言模型对所述标注好的第一文本进行语料数据增强包括:所述语言模型的生成器对所述标注好的第一文本中除所述必要字节外的其他字节进行遮掩
Mask
操作,并对所述
Mask
操作后的第一文本中被
Mask
的目标字节进行替换,得到候选文本;其中所述候选文本用于确定所述增强后的第二文本
。3.
根据权利要求2所述的方法,其特征在于,所述语言模型的生成器对所述标注好的第一文本中除所述必要字节外的其他字节进行遮掩
Mask
操作包括:所述生成器根据预先配置的关键信息抽取算法,识别所述第一文本中包含的关键字节;对所述第一文本中除所述必要字节和所述关键字节外的其他字节进行
Mask
操作
。4.
根据权利要求2所述的方法,其特征在于,所述获取所述语言模型输出的增强后的第二文本包括:获取所述语言模型的生成器直接输出的作为所述第二文本的所述候选文本
。5.
根据权利要求2所述的方法,其特征在于,所述获取所述语言模型输出的增强后的第二文本包括:所述语言模型的判别器确定所述候选文本与所述第一文本的相似度;若所述相似度超过预设的相似度阈值,则所述判别器将所述候选文本确定为所...

【专利技术属性】
技术研发人员:宋骋陈维强刘微孟卫明杜兆臣刘敏
申请(专利权)人:海信集团控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1