【技术实现步骤摘要】
一种面向模型质量优化的AI系统测试数据生成方法
[0001]本专利技术属于智能软件测试领域,尤其适用于智能软件测试中DNN模型的测试数据生成领域,其目的在于优化测试集质量,是一种提高测试充分性方法。
技术介绍
[0002]在AI系统开发领域中,模型测试是一项重要的工作。模型测试将一些符合真实世界的数据作为测试集输入模型当中,通过对输出结果进行验证来评估模型的性能和发现模型的缺陷。进行充分的模型测试可以更好地帮助开发人员发现模型的缺陷,从而进行参数调整等其他改善模型质量的操作。要对模型进行充分的测试,所使用的测试集必须有数据量多、数据分布多样性高、数据分布均匀的特点。
[0003]目前,针对测试数据获取困难、成本高的挑战,国内外研究人员相继提出了应用于测试数据的数据扩增方法,如对于图像数据作随机线性变换(旋转、平移等),对于文字数据作随机选取近义词替换等。这些方法在低成本的同时做到了让测试集的数据量有可观的提升,为测试人员开展测试工作提供了一定的帮助。然而,由于上述方法都是对原始测试集中每个数据随机选取扩增方法和扩增参数进行扩增,所以这些方法都很难处理原始测试集分布多样性不高和分布不均匀的问题。但是,在测试过程中,往往是一些边角案例可以使模型的缺陷暴露。所以,若是使用多样性不高或是分布不均匀的测试集进行测试,得到的测试结果与实际情况会有偏差,参考性不强。
[0004]对此,本专利技术提出一种面向模型质量优化的AI系统测试数据生成方法。本专利技术的基本思想为:应多对分布稀疏的区域进行变异生成新的数据,这样 ...
【技术保护点】
【技术特征摘要】
1.一种面向模型质量优化的AI系统测试数据生成方法;该方法针对原测试集和领域专家制定的变异算子库,计算出原测试集中所有数据之间的欧式距离,并进一步计算出每个数据的平均距离,以此作为该数据所在区域的数据稀疏程度的指标;再基于贪心思想,从测试集中选取平均距离最大的数据,使用变异算子库中的变异算子对其进行变异,每次变异后对生成的数据进行评价,若符合要求则进行迭代变异,若不符合要求则寻找下一个变异算子,一直到所有变异算子都已被使用,则寻找下一个平均距离最大的数据重复这些操作;具体而言,该方法包括下列步骤:1)计算平均距离;给定原始测试集T={t1,t2,...,t
m
},首先根据数据的特征,定义一个特征空间Ω;使用线性归一化的方法对所有特征进行归一化处理;其次计算T中每一个数据t
i
在Ω中对应的特征向量t
i
=(x
i1
,x
i2
,...,x
in
);再次,新建一个m*m的距离矩阵matrix_dist,用于记录T中所有数据两两之间的距离;然后开始遍历T中每对数据,计算其欧式距离并填写为matrix_dist对应的元,其计算公式如下:dist(t
i
,t
j
)=[(x
i,1
‑
x
j,1
)2+(x
i,2
‑
x
j,2
)2+...+(x
i,n
‑
x
j,n
)2]
1/2
matrix_dist
i,j
=dist(t
i
,t
j
)接着,基于得到的matrix_dist,计算T中每个数据ti对应的平均距离wi,其计算公式如下:w
i
=∑...
【专利技术属性】
技术研发人员:王兴亚,侯忠昊,徐剑锋,师玉星,赵志宏,
申请(专利权)人:南京慕测信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。