数据生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37332341 阅读:21 留言:0更新日期:2023-04-21 23:10
本公开关于一种数据生成方法、装置、电子设备、存储介质,所述方法包括:获取原始数据集合,以及基于原始数据集合得到的扩增数据集合;根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;根据原始转译数据集合和扩增转译数据集合,确定多个转译数据对;从多个转译数据对中确定出至少一个目标转译数据对;每个目标转译数据对中的两个转译数据的语义相似度大于或等于预设相似度阈值;基于至少一个目标转译数据对,从原始数据集合和扩增数据集合中,筛选出至少一个目标数据对。采用本方法能够实现可控的数据增强,提升了数据增强效果。果。果。

【技术实现步骤摘要】
数据生成方法、装置、电子设备和存储介质


[0001]本公开涉及互联网
,尤其涉及一种数据生成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]目前,针对NLP(Natural Language Processing,自然语言处理)领域的预训练模型任务,由于基于真实资源得到的训练数据较为缺乏,需要通过数据增强方式进行改善,以生成大量的训练数据。但采用传统的数据增强方法,存在因语言数据的离散性质所带来的挑战,如增强的语言数据改变了原数据的语义结构、语义顺序等,进而基于增强的语言数据进行后续模型训练任务,会在训练过程中产生较大的噪声,影响模型性能,造成数据的语义表征准确性差。

技术实现思路

[0003]本公开提供一种数据生成方法、装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中存在数据的语义表征准确性差的问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种数据生成方法,包括:
[0005]获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合;所述扩增数据集合包括与所述原始数据集合中每个原始数据分别对应的扩增数据,所述扩增数据通过对所述原始数据进行数据增强得到;
[0006]根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;
[0007]根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对;每个转译数据对包括原始转译数据和扩增转译数据;
[0008]从所述多个转译数据对中确定出至少一个目标转译数据对;每个目标转译数据对中的两个转译数据的语义相似度大于或等于预设相似度阈值;
[0009]基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对;所述目标数据对中的原始数据与所述目标转译数据对中的原始转译数据具有对应关系,所述目标数据对中的扩增数据与所述目标转译数据对中的扩增转译数据具有对应关系。
[0010]在一种可能实现方式中,所述获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合,包括:
[0011]获取原始数据集合;所述原始数据集合中包含多个原始数据;
[0012]按照预设的数据增强方式对每个原始数据进行处理,得到所述每个原始数据对应的扩增数据;所述数据增强方式包括同义词替换、随机插入、随机互换、随机删除中的至少一种;
[0013]基于所述每个原始数据对应的所述扩增数据,生成所述扩增数据集合。
[0014]在一种可能实现方式中,所述根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合,包括:
[0015]将所述每个原始数据输入至预训练的翻译模型,得到所述每个原始数据进行语言转换后的原始转译数据,并基于各所述原始转译数据,得到所述原始转译数据集合;
[0016]将所述每个扩增数据输入至所述预训练的翻译模型,得到所述每个扩增数据进行语言转换后的扩增转译数据,并基于各所述扩增转译数据,得到所述扩增转译数据集合。
[0017]在一种可能实现方式中,所述根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对,包括:
[0018]针对所述原始转译数据集合中的每个原始转译数据,从所述扩增转译数据集合中获取与其对应的扩增转译数据;
[0019]将任一原始转译数据以及所述任一原始转译数据对应的扩增转译数据,确定为所述转译数据对;
[0020]所述从所述多个转译数据对中确定出至少一个目标转译数据对,包括:
[0021]确定各所述转译数据对中两个数据之间的语义相似度;
[0022]将所述语义相似度大于或等于所述预设相似度阈值的转译数据对,确定为所述目标转译数据对。
[0023]在一种可能实现方式中,所述基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对,包括:
[0024]确定各所述目标转译数据对中扩增转译数据对应的数据标识;
[0025]从所述扩增数据集合中获取所述数据标识对应的目标扩增数据;其中,在所述扩增数据集合和所述扩增转译数据集合中,扩增数据与其语言转换后的扩增转译数据对应有相同的数据标识;
[0026]针对每个目标扩增数据,从所述原始数据集合中获取与其对应的目标原始数据,作为一个所述目标数据对;所述目标数据对用于在语义匹配任务中作为对比学习的样本正例对。
[0027]在一种可能实现方式中,所述方法还包括:
[0028]获取多个候选相似度阈值;
[0029]针对任一候选相似度阈值,确定所述任一候选相似度阈值对应的目标数据对,作为样本正例对,并采用所述样本正例对执行语义匹配任务,得到所述语义匹配任务中语义匹配模型对应的性能表征值;其中,基于不同的候选相似度阈值确定出的样本正例对对应有不同的性能表征值;
[0030]将目标性能表征值对应的样本正例对所对应的候选相似度阈值,作为所述预设相似度阈值。
[0031]根据本公开实施例的第二方面,提供一种数据生成装置,包括:
[0032]原始数据及其扩增数据获取单元,被配置为执行获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合;所述扩增数据集合包括与所述原始数据集合中每个原始数据分别对应的扩增数据,所述扩增数据通过对所述原始数据进行数据增强得到;
[0033]转译数据得到单元,被配置为执行根据每个原始数据进行语言转换后的原始转译
数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;
[0034]转译数据对确定单元,被配置为执行根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对;每个转译数据对包括原始转译数据和扩增转译数据;
[0035]筛选单元,被配置为执行从所述多个转译数据对中确定出至少一个目标转译数据对;每个目标转译数据对中的两个转译数据的语义相似度大于或等于预设相似度阈值;
[0036]目标数据对得到单元,被配置为执行基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对;所述目标数据对中的原始数据与所述目标转译数据对中的原始转译数据具有对应关系,所述目标数据对中的扩增数据与所述目标转译数据对中的扩增转译数据具有对应关系。
[0037]在一种可能实现方式中,所述转译数据对确定单元,具体被配置为执行针对所述原始转译数据集合中的每个原始转译数据,从所述扩增转译数据集合中获取与其对应的扩增转译数据;将任一原始转译数据以及所述任一原始转译数据对应的扩增转译数据,确定为所述转译数据对;
[0038]所述筛选单元,具体被配置为执行确定各所述转译数据对中两个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据生成方法,其特征在于,所述方法包括:获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合;所述扩增数据集合包括与所述原始数据集合中每个原始数据分别对应的扩增数据,所述扩增数据通过对所述原始数据进行数据增强得到;根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对;每个转译数据对包括原始转译数据和扩增转译数据;从所述多个转译数据对中确定出至少一个目标转译数据对;每个目标转译数据对中的两个转译数据的语义相似度大于或等于预设相似度阈值;基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对;所述目标数据对中的原始数据与所述目标转译数据对中的原始转译数据具有对应关系,所述目标数据对中的扩增数据与所述目标转译数据对中的扩增转译数据具有对应关系。2.根据权利要求1所述的方法,其特征在于,所述获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合,包括:获取原始数据集合;所述原始数据集合中包含多个原始数据;按照预设的数据增强方式对每个原始数据进行处理,得到所述每个原始数据对应的扩增数据;所述数据增强方式包括同义词替换、随机插入、随机互换、随机删除中的至少一种;基于所述每个原始数据对应的所述扩增数据,生成所述扩增数据集合。3.根据权利要求1所述的方法,其特征在于,所述根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合,包括:将所述每个原始数据输入至预训练的翻译模型,得到所述每个原始数据进行语言转换后的原始转译数据,并基于各所述原始转译数据,得到所述原始转译数据集合;将所述每个扩增数据输入至所述预训练的翻译模型,得到所述每个扩增数据进行语言转换后的扩增转译数据,并基于各所述扩增转译数据,得到所述扩增转译数据集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对,包括:针对所述原始转译数据集合中的每个原始转译数据,从所述扩增转译数据集合中获取与其对应的扩增转译数据;将任一原始转译数据以及所述任一原始转译数据对应的扩增转译数据,确定为所述转译数据对;所述从所述多个转译数据对中确定出至少一个目标转译数据对,包括:确定各所述转译数据对中两个数据之间的语义相似度;将所述语义相似度大于或等于所述预设相似度阈值的转译数据对,确定为所述目标转译数据对。5.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对,包括:
确定各所述目标转译数据对中扩增转译数据对应的数据标识;从所述扩增数据集合中获取所述数据标识对应的目标扩增数据...

【专利技术属性】
技术研发人员:伍星林梓佳
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1