样本生成方法和装置制造方法及图纸

技术编号:31311180 阅读:9 留言:0更新日期:2021-12-12 21:42
本说明书实施例提供了一种样本生成方法及装置。该方法首先得到结构化数据的目标样本;所述目标样本中包括至少一个特征值,每一个特征值对应所述结构化数据的一个特征;从所述结构化数据的至少一个特征中,确定待扰动特征;确定对应于所述待扰动特征的扰动范围;在所述扰动范围内,对所述目标样本中的对应于待扰动特征的特征值进行扰动,以得到新的样本。以得到新的样本。以得到新的样本。

【技术实现步骤摘要】
样本生成方法和装置


[0001]本说明书一个或多个实施例涉及电子信息技术,尤其涉及样本生成方法和装置。

技术介绍

[0002]随着人工智能技术的发展,在各种业务领域中都产生了机器识别模型。机器识别模型是利用样本数据训练得到的。为了提高机器识别模型的识别准确度,需要尽可能地利用更多的样本数据来训练机器识别模型。
[0003]然而,能够从实际业务应用中获取到的样本的数量通常是有限的,这样,则无法更好地对机器识别模型进行训练。

技术实现思路

[0004]本说明书一个或多个实施例描述了样本生成方法和装置,能够生成更多的训练样本。
[0005]根据第一方面,提供了一种样本生成方法,包括:
[0006]得到结构化数据的目标样本;所述目标样本中包括至少一个特征值,每一个特征值对应所述结构化数据的一个特征;
[0007]从所述结构化数据的至少一个特征中,确定待扰动特征;
[0008]确定对应于所述待扰动特征的扰动范围;
[0009]在所述扰动范围内,对所述目标样本中的对应于待扰动特征的特征值进行扰动,以得到新的样本。
[0010]其中,所述从所述结构化数据的至少一个特征中确定待扰动特征包括:
[0011]将所述目标样本输入需要训练的机器识别模型中,由所述机器识别模型根据所述目标样本的标签对所述结构化数据中的各个特征进行学习;
[0012]确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度;
[0013]从所述结构化数据的各个特征中,选择出重要程度排在前N个的特征作为所述待扰动特征,其中,所述N为不小于1的整数。
[0014]其中,所述确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度包括:
[0015]利用SHAP算法或者LINE算法,计算所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的贡献分值,其中,贡献分值越大的特征重要程度越高。
[0016]在所述确定所述结构化数据中的各个特征在所述机器识别模型的学习中的重要程度之后,进一步包括:
[0017]从所述结构化数据的各个特征中选择出重要程度排在后M个的特征作为所述待扰动特征,其中,所述M为不小于1的整数。
[0018]其中,所述目标样本位于一个样本集中,该样本集中包括至少两个原始样本,所述
目标样本为从该至少两个原始样本中选择出的样本。
[0019]其中,从至少两个原始样本中选择目标样本包括:
[0020]将所述至少两个原始样本输入需要训练的机器识别模型中,得到机器识别模型针对每一个原始样本输出的得分;将得分价值高的原始样本作为所述目标样本。
[0021]所述确定对应于所述待扰动特征的扰动范围包括:
[0022]从至少两个原始样本的对应于待扰动特征的至少两个特征值中,选择出最小特征值以及最大特征值;
[0023]利用该最小特征值及最大特征值,确定出待扰动特征的特征范围;
[0024]利用待扰动特征的特征范围,得到所述待扰动特征的扰动范围。
[0025]其中,所述在所述扰动范围内对目标样本中的对应于待扰动特征的特征值进行扰动包括如下中的至少一项:
[0026]利用所述扰动范围的下限值和所述上限值,计算出中位数,将目标样本中的对应于待扰动特征的特征值替换为所述中位数;
[0027]确定位于所述扰动范围内的一个数值,将目标样本中的对应于待扰动特征的特征值替换为该数值;
[0028]对所述至少两个原始样本的对应于待扰动特征的至少两个特征值,计算平均值,将目标样本中的对应于待扰动特征的特征值替换为所述平均值。
[0029]其中,所述样本为黑样本;
[0030]和/或,
[0031]在所述得到新的样本之后,进一步包括:将所述新的样本输入所述机器识别模型中,判断机器识别模型输出的识别结果是否符合所述目标样本的标签要求,如果符合,则将该新的样本作为所述机器识别模型的训练样本,否则,丢弃。
[0032]根据第二方面,提供了一种样本生成装置,包括:
[0033]目标样本获取模块,被配置为得到结构化数据的目标样本;所述目标样本中包括至少一个特征值,每一个特征值对应所述结构化数据的一个特征;
[0034]扰动特征确定模块,被配置为从所述结构化数据的至少一个特征中,确定待扰动特征;
[0035]扰动范围确定模块,被配置为确定对应于所述待扰动特征的扰动范围;
[0036]扰动处理模块,被配置为在所述扰动范围内,对所述目标样本中的对应于待扰动特征的特征值进行扰动,以得到新的样本。
[0037]其中,所述扰动特征确定模块被配置为执行:
[0038]将所述目标样本输入需要训练的机器识别模型中,由所述机器识别模型根据所述目标样本的标签对所述结构化数据中的各个特征进行学习;
[0039]确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度;
[0040]从所述结构化数据的各个特征中,选择出重要程度排在前N个的特征作为所述待扰动特征,其中,所述N为不小于1的整数。
[0041]在本说明书装置的一个实施例中,所述扰动特征确定模块被配置为执行:利用SHAP算法或者LINE算法,计算所述结构化数据中的各个特征在所述机器识别模型学习所述
目标样本中的贡献分值,其中,贡献分值越大的特征重要程度越高。
[0042]在本说明书装置的一个实施例中,扰动特征确定模块进一步被配置从所述结构化数据的各个特征中选择出重要程度排在后M个的特征作为所述待扰动特征,其中,所述M为不小于1的整数。
[0043]其中,所述目标样本位于一个样本集中,该样本集中包括至少两个原始样本,所述目标样本为从该至少两个原始样本中选择出的样本。
[0044]其中,所述目标样本获取模块被配置为执行:将所述至少两个原始样本输入需要训练的机器识别模型中,得到机器识别模型针对每一个原始样本输出的得分;将得分价值高的原始样本作为所述目标样本。
[0045]其中,所述扰动范围确定模块被配置为执行:从至少两个原始样本的对应于待扰动特征的至少两个特征值中,选择出最小特征值以及最大特征值;利用该最小特征值及最大特征值,确定出待扰动特征的特征范围;利用待扰动特征的特征范围,得到所述待扰动特征的扰动范围。
[0046]其中,所述扰动处理模块被配置为执行如下中的至少一项:
[0047]利用所述扰动范围的下限值和所述上限值,计算出中位数,将目标样本中的对应于待扰动特征的特征值替换为所述中位数;
[0048]确定位于所述扰动范围内的一个数值,将目标样本中的对应于待扰动特征的特征值替换为该数值;
[0049]对所述至少两个原始样本的对应于待扰动特征的至少两个特征值,计算平均值,将目标样本中的对应于待扰动特征的特征值替换为所述平均值。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.样本生成方法,包括:得到结构化数据的目标样本;所述目标样本中包括至少一个特征值,每一个特征值对应所述结构化数据的一个特征;从所述结构化数据的至少一个特征中,确定待扰动特征;确定对应于所述待扰动特征的扰动范围;在所述扰动范围内,对所述目标样本中的对应于待扰动特征的特征值进行扰动,以得到新的样本。2.根据权利要求1所述的方法,其中,所述从所述结构化数据的至少一个特征中确定待扰动特征包括:将所述目标样本输入需要训练的机器识别模型中,由所述机器识别模型根据所述目标样本的标签对所述结构化数据中的各个特征进行学习;确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度;从所述结构化数据的各个特征中,选择出重要程度排在前N个的特征作为所述待扰动特征,其中,所述N为不小于1的整数。3.根据权利要求2所述的方法,其中,所述确定所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的重要程度包括:利用SHAP算法或者LINE算法,计算所述结构化数据中的各个特征在所述机器识别模型学习所述目标样本中的贡献分值,其中,贡献分值越大的特征重要程度越高。4.根据权利要求2所述的方法,在所述确定所述结构化数据中的各个特征在所述机器识别模型的学习中的重要程度之后,进一步包括:从所述结构化数据的各个特征中选择出重要程度排在后M个的特征作为所述待扰动特征,其中,所述M为不小于1的整数。5.根据权利要求1所述的方法,其中,所述目标样本位于一个样本集中,该样本集中包括至少两个原始样本,所述目标样本为从该至少两个原始样本中选择出的样本。6.根据权利要求5所述的方法,其中,从至少两个原始样本中选择目标样本包括:将所述至少两个原始样本输入需要训练的机器识别模型中,得到机器识别模型针对每一个原始样本输出的得分;将得分价值高的原始样本作为所述目标样本。7.根据权利要求5所述的方法,所述确定对应于所述待扰动特征的扰动范围包括:从至少两个原始样本的对应于待扰动特征的至少两个特征值中,选择出最小特征值以及最大特征值;利用该最小特征值及最大特征值,确定出待扰动特征的特征范围;利用待扰动特征的特征范围,得到所述待扰动特征的扰动范围。8.根据权利要求7所述的方法,其中,所述在所述扰动范围内对目标样本中的对应于待扰动特征的特征值进行扰动包括如下中的至少一项:利用所述扰动范围的下限值和所述上限值,计算出中位数,将目标样本中的对应于待扰动特征的特征值替换为所述中位数;确定位于所述扰动范围内的一个数值,将目标样本中的对应于待扰动特征的特征值替换为该数值;
对所述至少两个原始样本的对应于待扰动特征的至少两个特征值,计算平均值,将目标样本中的对应于待扰动特征的特征值替换为...

【专利技术属性】
技术研发人员:张长浩傅欣艺王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1