文本数据增强方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38006678 阅读:9 留言:0更新日期:2023-06-30 10:23
本发明专利技术提供一种文本数据增强方法、装置、电子设备及存储介质,涉及自然语言处理技术领域,该方法包括:获取带标签的第一文本集;基于训练好的预训练模型,确定第一文本集中的每个第一文本中的多个重点词,并从第一文本集中确定多个重点词各自对应的同义词,将各重点词替换为对应的同义词,得到第二文本集;计算第二文本集中的每个第二文本对应的困惑度;从第二文本集中的各第二文本中确定困惑度小于预设阈值的第三文本,并基于训练好的预训练模型预测每个第三文本的标签,得到增强后的带标签的第三文本集。本发明专利技术不依赖人工设计的同义词库且可以保证增强后的文本集依然符合自然语言规则。规则。规则。

【技术实现步骤摘要】
文本数据增强方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种文本数据增强方法、装置、电子设备及存储介质。

技术介绍

[0002]随着大数据时代来临,各领域的文本数据已然呈现爆炸式增长。然而,实际的生产场景中,时常伴随着带标签文本数据稀缺的现象,即大量文本数据处于无标签状态。由于数据打标的质量和规模对由大数据驱动的人工智能模型影响较大,为了保证模型性能,往往需要耗费大量的人力、物力和财力进行人工打标。此外,由于数据分布的差异,不同领域或场景下的数据打标成果难以共享,造成一定的资源浪费。
[0003]针对上述问题,目前较为常用的一种方案为文本数据增强。文本数据增强可以简单理解为根据少量文本数据生成大量文本数据的过程。文本数据增强不仅可以增加训练的数据量(好样本),提高模型的泛化能力,而且通过增加噪声数据(坏样本),提升模型的鲁棒性。此外,数据样本不均衡问题也可以通过数据增强克服。
[0004]目前较为常用的文本数据增强方法包括:同义词替换法、随机删除法、随机交换法和随机插入法等等。其中,同义词替换法需要额外的人工设计的同义词库支撑,而随机删除法、随机交换法和随机插入法无法保证生成的新样本依然符合自然语言规则。

技术实现思路

[0005]本专利技术提供一种文本数据增强方法、装置、电子设备及存储介质,用以解决现有技术中同义词替换法需要额外的人工设计的同义词库支撑,而随机删除法、随机交换法和随机插入法无法保证生成的新样本依然符合自然语言规则的缺陷,实现不依赖人工设计的同义词库且可以保证增强后的文本集依然符合自然语言规则的目的。
[0006]本专利技术提供一种文本数据增强方法,包括:获取带标签的第一文本集;基于训练好的预训练模型,确定所述第一文本集中的每个第一文本中的多个重点词,并从所述第一文本集中确定所述多个重点词各自对应的同义词,将各所述重点词替换为对应的所述同义词,得到第二文本集,所述训练好的预训练模型为将所述第一文本集输入初始预训练模型中进行训练得到的;计算所述第二文本集中的每个第二文本对应的困惑度;从所述第二文本集中的各所述第二文本中确定所述困惑度小于预设阈值的第三文本,并基于所述训练好的预训练模型预测每个所述第三文本的标签,得到增强后的带标签的第三文本集。
[0007]根据本专利技术提供的一种文本数据增强方法,所述基于训练好的预训练模型,确定所述第一文本集中的每个第一文本中的多个重点词,包括:针对所述第一文本集中每个第一文本中的每个词,将所述词进行遮挡,基于所述
训练好的预训练模型计算遮挡前的所述第一文本对应的损失和遮挡后的所述第一文本对应的损失,并计算遮挡前后的损失差值的绝对值;针对所述第一文本集中每个第一文本,将所述第一文本中各个词对应的所述绝对值按照从大到小的顺序进行排序,选择排序靠前的多个所述绝对值各自对应的所述词作为所述第一文本中的多个重点词。
[0008]根据本专利技术提供的一种文本数据增强方法,所述将所述词进行遮挡,包括:将所述第一文本中的所述词替换为遮挡标签,以遮挡所述词。
[0009]根据本专利技术提供的一种文本数据增强方法,所述从所述第一文本集中确定所述多个重点词各自对应的同义词,包括:针对每个所述重点词,计算所述重点词的词向量与所述第一文本集中的其他词的词向量之间的距离;将所述距离最小的词确定为所述重点词对应的所述同义词。
[0010]根据本专利技术提供的一种文本数据增强方法,所述计算所述第二文本集中的每个第二文本对应的困惑度,包括:统计所述第一文本集中各个词在所述第一文本集中出现的频次,生成第一词频表;统计所述第一文本集中每两个相邻词在所述第一文本集中共同出现的频次,生成第二词频表;基于所述第一词频表或所述第二词频表,计算所述第二文本集中的每个第二文本对应的困惑度。
[0011]根据本专利技术提供的一种文本数据增强方法,所述获取带标签的第一文本集,包括:获取带标签的原始文本集;对所述原始文本集进行预处理,得到所述带标签的第一文本集。
[0012]根据本专利技术提供的一种文本数据增强方法,所述对所述原始文本集进行预处理,得到所述带标签的第一文本集,包括:去除所述原始文本集中的非汉字部分,并使用分词工具进行分词,得到所述带标签的第一文本集。
[0013]本专利技术还提供一种文本数据增强装置,包括:获取模块,用于获取带标签的第一文本集;替换模块,用于基于训练好的预训练模型,确定所述第一文本集中的每个第一文本中的多个重点词,并从所述第一文本集中确定所述多个重点词各自对应的同义词,将各所述重点词替换为对应的所述同义词,得到第二文本集,所述训练好的预训练模型为将所述第一文本集输入初始预训练模型中进行训练得到的;计算模块,用于计算所述第二文本集中的每个第二文本对应的困惑度;增强模块,用于从所述第二文本集中的各所述第二文本中确定所述困惑度小于预设阈值的第三文本,并基于所述训练好的预训练模型预测每个所述第三文本的标签,得到增强后的带标签的第三文本集。
[0014]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的文本数据增
强方法的步骤。
[0015]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的文本数据增强方法的步骤。
[0016]本专利技术提供的文本数据增强方法、装置、电子设备及存储介质,首先,获取带标签的第一文本集;基于训练好的预训练模型,确定第一文本集中的每个第一文本中的多个重点词,并从第一文本集中确定多个重点词各自对应的同义词,将各重点词替换为对应的同义词,得到第二文本集,训练好的预训练模型为将第一文本集输入初始预训练模型中进行训练得到的,可以利用训练好的预训练模型从第一文本集中捕捉各重点词的同义词,无需依赖人工设计的同义词库;然后,计算第二文本集中的每个第二文本对应的困惑度;从第二文本集中的各第二文本中确定困惑度小于预设阈值的第三文本,并基于训练好的预训练模型预测每个第三文本的标签,得到增强后的带标签的第三文本集;也即,可以通过困惑度筛选出符合自然语言规则的新样本。因此,本专利技术不依赖人工设计的同义词库且可以保证增强后的文本集依然符合自然语言规则。
[0017]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
[0018]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0019]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。...

【技术保护点】

【技术特征摘要】
1.一种文本数据增强方法,其特征在于,包括:获取带标签的第一文本集;基于训练好的预训练模型,确定所述第一文本集中的每个第一文本中的多个重点词,并从所述第一文本集中确定所述多个重点词各自对应的同义词,将各所述重点词替换为对应的所述同义词,得到第二文本集,所述训练好的预训练模型为将所述第一文本集输入初始预训练模型中进行训练得到的;计算所述第二文本集中的每个第二文本对应的困惑度;从所述第二文本集中的各所述第二文本中确定所述困惑度小于预设阈值的第三文本,并基于所述训练好的预训练模型预测每个所述第三文本的标签,得到增强后的带标签的第三文本集。2.根据权利要求1所述的文本数据增强方法,其特征在于,所述基于训练好的预训练模型,确定所述第一文本集中的每个第一文本中的多个重点词,包括:针对所述第一文本集中每个第一文本中的每个词,将所述词进行遮挡,基于所述训练好的预训练模型计算遮挡前的所述第一文本对应的损失和遮挡后的所述第一文本对应的损失,并计算遮挡前后的损失差值的绝对值;针对所述第一文本集中每个第一文本,将所述第一文本中各个词对应的所述绝对值按照从大到小的顺序进行排序,选择排序靠前的多个所述绝对值各自对应的所述词作为所述第一文本中的多个重点词。3.根据权利要求2所述的文本数据增强方法,其特征在于,所述将所述词进行遮挡,包括:将所述第一文本中的所述词替换为遮挡标签,以遮挡所述词。4.根据权利要求1至3任一项所述的文本数据增强方法,其特征在于,所述从所述第一文本集中确定所述多个重点词各自对应的同义词,包括:针对每个所述重点词,计算所述重点词的词向量与所述第一文本集中的其他词的词向量之间的距离;将所述距离最小的词确定为所述重点词对应的所述同义词。5.根据权利要求1至3任一项所述的文本数据增强方法,其特征在于,所述计算所述第二文本集中的每个第二文本对应的困惑度,包括:统计所...

【专利技术属性】
技术研发人员:华娇娇唐华云王延昭徐烨商丽丽孙爽
申请(专利权)人:中债金科信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1