【技术实现步骤摘要】
数据生成方法、装置、电子设备和存储介质
[0001]本公开涉及互联网
,尤其涉及一种数据生成方法、装置、电子设备、存储介质和计算机程序产品。
技术介绍
[0002]目前,针对NLP(Natural Language Processing,自然语言处理)领域的预训练模型任务,由于基于真实资源得到的训练数据较为缺乏,需要通过数据增强方式进行改善,以生成大量的训练数据。但采用传统的数据增强方法,存在因语言数据的离散性质所带来的挑战,如增强的语言数据改变了原数据的语义结构、语义顺序等,进而基于增强的语言数据进行后续模型训练任务,会在训练过程中产生较大的噪声,影响模型性能,造成数据的语义表征准确性差。
技术实现思路
[0003]本公开提供一种数据生成方法、装置、电子设备、存储介质和计算机程序产品,以至少解决相关技术中存在数据的语义表征准确性差的问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种数据生成方法,包括:
[0005]获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合;所述扩增数据集合包括与所述原始数据集合中每个原始数据分别对应的扩增数据,所述扩增数据通过对所述原始数据进行数据增强得到;
[0006]根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;
[0007]根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对;每个转译数 ...
【技术保护点】
【技术特征摘要】
1.一种数据生成方法,其特征在于,所述方法包括:获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合;所述扩增数据集合包括与所述原始数据集合中每个原始数据分别对应的扩增数据,所述扩增数据通过对所述原始数据进行数据增强得到;根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合;根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对;每个转译数据对包括原始转译数据和扩增转译数据;从所述多个转译数据对中确定出至少一个目标转译数据对;每个目标转译数据对中的两个转译数据的语义相似度大于或等于预设相似度阈值;基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对;所述目标数据对中的原始数据与所述目标转译数据对中的原始转译数据具有对应关系,所述目标数据对中的扩增数据与所述目标转译数据对中的扩增转译数据具有对应关系。2.根据权利要求1所述的方法,其特征在于,所述获取原始数据集合,以及基于所述原始数据集合得到的扩增数据集合,包括:获取原始数据集合;所述原始数据集合中包含多个原始数据;按照预设的数据增强方式对每个原始数据进行处理,得到所述每个原始数据对应的扩增数据;所述数据增强方式包括同义词替换、随机插入、随机互换、随机删除中的至少一种;基于所述每个原始数据对应的所述扩增数据,生成所述扩增数据集合。3.根据权利要求1所述的方法,其特征在于,所述根据每个原始数据进行语言转换后的原始转译数据,得到原始转译数据集合,以及根据每个扩增数据进行语言转换后的扩增转译数据,得到扩增转译数据集合,包括:将所述每个原始数据输入至预训练的翻译模型,得到所述每个原始数据进行语言转换后的原始转译数据,并基于各所述原始转译数据,得到所述原始转译数据集合;将所述每个扩增数据输入至所述预训练的翻译模型,得到所述每个扩增数据进行语言转换后的扩增转译数据,并基于各所述扩增转译数据,得到所述扩增转译数据集合。4.根据权利要求1所述的方法,其特征在于,所述根据所述原始转译数据集合和所述扩增转译数据集合,确定多个转译数据对,包括:针对所述原始转译数据集合中的每个原始转译数据,从所述扩增转译数据集合中获取与其对应的扩增转译数据;将任一原始转译数据以及所述任一原始转译数据对应的扩增转译数据,确定为所述转译数据对;所述从所述多个转译数据对中确定出至少一个目标转译数据对,包括:确定各所述转译数据对中两个数据之间的语义相似度;将所述语义相似度大于或等于所述预设相似度阈值的转译数据对,确定为所述目标转译数据对。5.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个目标转译数据对,从所述原始数据集合和所述扩增数据集合中,筛选出至少一个目标数据对,包括:
确定各所述目标转译数据对中扩增转译数据对应的数据标识;从所述扩增数据集合中获取所述数据标识对应的目标扩增数据...
【专利技术属性】
技术研发人员:伍星,林梓佳,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。