数据生成模型的训练方法及装置制造方法及图纸

技术编号:33736448 阅读:42 留言:0更新日期:2022-06-08 21:33
本申请提供了一种数据生成模型的训练方法及装置,包括:获取多条目标对抗文本数据,并对多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;针对每个数据簇,从数据簇中选取至少一个数据对,每个数据对包括两条目标对抗文本数据,并将数据对作为数据生成模型的训练数据样本;以训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型,以得到训练后的数据生成模型,所述训练后的数据生成模型用于基于待处理的目标对抗文本数据,生成对抗文本数据。如此,能够生成丰富的对抗文本数据,从而提高相应数据识别模型的识别效果,有效提升对抗文本数据的识别率。对抗文本数据的识别率。对抗文本数据的识别率。

【技术实现步骤摘要】
数据生成模型的训练方法及装置


[0001]本申请涉及互联网技术,尤其涉及一种数据生成模型的训练方法及装置。

技术介绍

[0002]恶意数据由于具有变体多、干扰性强、强语义对抗等特点,在对恶意数据进行语义识别时,语义信息容易被对抗扰动摧毁,容易损失恶意数据的数据特征,因此,在对恶意数据进行数据增强的过程中,由于容易损失恶意数据的数据特征,若直接对恶意数据进行相似词替换、或者文字翻译等方式进行数据增强,则可能会对原句的含义造成影响,从而影响到对恶意数据的识别效果。

技术实现思路

[0003]本申请实施例提供一种数据生成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够生成丰富的对抗文本数据,从而提高相应数据识别模型的识别效果,有效提升对抗文本数据的识别率。
[0004]本申请实施例的技术方案是这样实现的:
[0005]本申请实施例提供一种数据生成模型的训练方法,包括:
[0006]获取多条目标对抗文本数据,并对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;
[0007本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据生成模型的训练方法,其特征在于,所述方法包括:获取多条目标对抗文本数据,并对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;针对每个所述数据簇,从所述数据簇中选取至少一个数据对,每个所述数据对包括两条所述目标对抗文本数据,并将所述数据对作为所述数据生成模型的训练数据样本;以所述训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型,以得到训练后的数据生成模型,所述训练后的数据生成模型用于基于待处理的目标对抗文本数据,生成对抗文本数据。2.如权利要求1所述的方法,其特征在于,所述对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇,包括:分别对所述多条目标对抗文本数据中各目标对抗文本数据进行分词处理,得到对应各目标对抗文本数据的分词结果;基于所述分词结果,确定任意两条所述目标对抗文本数据之间的词汇交集与词汇并集;获取任意两条所述目标对抗文本数据的词汇交集与词汇并集的比值,并将所述比值确定为相应两条所述目标对抗文本数据之间的相似度;基于确定的所述相似度,对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇。3.如权利要求1所述的方法,其特征在于,所述从所述数据簇中选取至少一个数据对,包括:从所述数据簇包括的至少两条所述目标对抗文本数据中,随机选取两条目标对抗文本数据,并将随机选取得到的两条所述目标对抗文本数据组成一个所述数据对;重复上述操作,直至选取目标数量的所述数据对或所述数据簇为空。4.如权利要求1所述的方法,其特征在于,所述从所述数据簇中选取至少一个数据对,包括:获取所述数据簇中所包括文本数据的公共文本数据,作为所述数据簇的聚类种子;从所述数据簇包括的至少两条所述目标对抗文本数据中,选取至少一条目标对抗文本数据;分别将所述聚类种子与选取的目标对抗文本数据中的一条目标对抗文本数据组成所述数据对,以得到至少一个所述数据对。5.如权利要求1所述的方法,其特征在于,所述将所述数据对作为所述数据生成模型的训练数据样本之后,还包括:对所述训练数据样本进行语义识别,得到所述训练数据样本的语义识别结果;当所述语义识别结果表征所述训练数据样本中包括不可识别字符时,基于预先设定的映射关系,将所述不可识别字符映射为可识别字符,以得到新训练数据样本;所述以所述训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型,包括:以所述新训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数
据作为标准数据,训练所述数据生成模型。6.如权利要求5所述的方法,其特征在于,所述基于预先设定的映射关系,将所述不可识别字符映射为可识别字符,以得到新训练数据样本,包括:对所述不可识别字符进行检测,以确定所述不可识别字符的位置和类型;基于所述不可识别字符的类型,获取与所述类型对应的不可识别字符映射关系,并基于所述不可识别字符的位置,确定所述不可识别字符的位置特征;基于所述映射关系以及所述位置特征,将所述训练数据样本中所述不可识别字符映射为可识别字符,以得到新训练数据样本。7.如权利要求1所述的方法,其特征在于,所述数据生成模型包括编码层以及解码层,所述以所述训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型,包括:通过所述编码层,对所述训练数据样本中的所述源数据、以及所述标准数据分别进行编码,得到对应所述源数据的第一编码特征、以及对应所述标准数据的第二编码特征;通过所述解码层,基于所述第一编码特征以及所述第二编码特征,对所述第一编码特征...

【专利技术属性】
技术研发人员:李丽丽李博刘晓龙陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1