一种面向神经元特性的AI系统软件模型变异技术技术方案

技术编号:29934029 阅读:21 留言:0更新日期:2021-09-04 19:07
本发明专利技术涉及一种面向神经元特性的AI系统软件模型变异技术。首先,计算出测试集中每个类别的数据子集的距离熵,即每个类子集的多样性程度,根据整个测试集的平均距离熵,量化测试集的整体多样性程度,自动选择相应的变异级别;在此基础上,选择相应级别的变异算子,变异得到多个变异模型;最后,筛选掉查准率较低的变异模型,计算剩余变异模型的变异得分,有效地评估测试集质量。本发明专利技术目的在于解决深度学习系统测试集质量评估难题。利用变异得分指标,可以帮助软件研发人员准确地评价测试集,保障深度学习系统的质量。保障深度学习系统的质量。保障深度学习系统的质量。

【技术实现步骤摘要】
一种面向神经元特性的AI系统软件模型变异技术


[0001]本专利技术属于深度学习测试领域,尤其适用于深度学习测试中的测试充分性度量领域,其目的在于解决深度学习系统测试集质量评估问题,是一种帮助软件测试人员提高测试有效性,保障深度学习系统质量的方法。

技术介绍

[0002]深度学习定义了一种全新的数据驱动范式。与传统软件不同,深度学习系统内部逻辑是由数据集驱动产生的。现如今,深度学习技术迅猛发展,逐渐成为人工智能领域的关键技术,并且在许多重要的应用中取得了显著的成功。但随着其广泛应用,深度神经网络系统的质量问题也被重点关注。由于深度神经网络的结构复杂,数据中微小的扰动,即便无法被人类发现,却可能造成深度神经网络做出错误的判断,进而输出错误的结果。特别地,深度神经网络越来越多地被部署在自动驾驶汽车系统、恶意软件检测系统以及飞机碰撞避免系统等安全攸关领域,所以对这类深度学习系统进行充分的测试并保证其质量至关重要。由于深度学习系统特性,测试集在测试过程中起着重要的作用。一个好的测试集,能对深度学习系统的一般行为和各种边界条件下的行为进行充分的测试,尽可能找多的模型缺陷。这表明,找到一个高质量的测试集是一项十分重要的工作。
[0003]如何评估测试集的质量是一类重要的研究问题。当系统中错误数量是已知时,测试集能检测到的错误越多,则可称该测试集的质量越高。但在实际场景下,深度学习系统中缺陷的总数量是未知的。对此,研发人员只能依赖于其它手段来评估测试集的质量。神经元覆盖率是一种评估测试集质量和发现模型缺陷的有效指标:首先,训练过程计算出神经元的阈值;其次,利用测试集计算出神经元覆盖率;最后,通过神经元覆盖率评估测试模型的充分性,评估测试集的质量。神经元覆盖率越高,测试的充分性越高,发现潜在缺陷的可能性越大,测试集的质量越高。但是,这种测试标准具有模型依赖性,只能通过测试过程中的模型内部神经元覆盖率侧面反映出测试集的质量。同时,测试集的质量与发现缺陷的可能性相关,而不是明确的缺陷个数。所以,我们需要一种在测试之前、直接对测试集质量进行评估的方法。变异测试是一种评估测试用例错误检测能力的有效方法。在传统软件中,变异测试已经成为系统评价检测数据质量、定位检测数据缺陷的重要技术之一。其中,最关键的步骤就是设计和选择变异算子,将潜在的错误引入被测软件中,从而生成软件的变异体。通过比较源程序和变异程序在测试用例集上的表现差异性,评估测试用例集的质量。差异性越大,测试用例集的质量越高。
[0004]对此,本专利技术提出了一种面向神经元特性的AI系统软件模型变异技术。本专利技术的基本思想为:将传统软件变异测试的思路迁移到深度学习系统的测试中,利用深度学习的变异算子对模型进行变异,观察测试集的数据可以将多少变异模型的缺陷暴露出来,作为测试集质量的评估标准。首先,计算出测试集中每个类别的数据子集的距离熵,即每个类子集的多样性程度,根据整个测试集的平均距离熵,量化测试集的整体多样性程度,自动选择相应的变异级别;在此基础上,选择相应级别的变异算子,变异得到多个变异模型;最后,筛
选掉查准率较低的变异模型,计算剩余变异模型的变异得分,有效地评估测试集质量。
[0005]通过该方法,可以帮助测试人员快速而准确地得到测试集的变异得分,进而评估测试集的质量,减少了因为测试集质量过低而进行的无效测试时间,从而有效提高深度学习模型的测试时间、系统的研发效率。

技术实现思路

[0006]本专利技术通过提供一种面向神经元特性的AI系统软件模型变异技术,来有效解决目前深度学习系统测试集质量评估难题。利用变异得分指标,可以帮助软件研发人员准确地评价测试集,保障深度学习系统的质量。
[0007]为达成上述目标,本专利技术提出一种面向神经元特性的AI系统软件模型变异技术。首先,计算出测试集中每个类别的数据子集的距离熵distance_entropy,即每个类子集的多样性程度,根据整个测试集的平均距离熵,量化测试集的整体多样性程度div_value,自动选择相应的变异级别mutation_level;在此基础上,选择相应级别的变异算子source_operator或model_operator,变异得到多个变异模型mutation_model;最后,筛选掉查准率较低的变异模型,计算剩余变异模型的变异得分mutation_score,有效地评估测试集质量。具体而言,该方法包括下列步骤。
[0008]1)变异级别自动选择。给定测试集TS={TS1,TS2,...,TS
n
}。其中,每个类的子集TS
k
={t
k,1
,t
k,2
,...,t
k,m
}。利用欧式距离distance(t
k,i
,t
k,j
)计算并用距离矩阵matrix保存TS
k
中两两数据的距离。欧式距离的计算公式如下:
[0009](n为数据x和y的维数)
[0010]计算出距离矩阵matrix的最小生成树tree,并将tree的权重边加入到集合W中,其中W={w1,w2,
……
,w
m
‑1}。基于W计算出TS
k
的距离熵dis_entropy,其计算公式如下:
[0011][0012]其中,
[0013]对于n个测试子集,计算出dis_entropy的平均值div_value与div_threshold比较,得到相应的变异级别mutation_level。其计算公式如下:
[0014][0015]本步骤的目的是根据测试集的多样性,自动选择适合测试集的变异级别。具体地对于多样性程度高的测试集,适合用模型级变异测试;相反,对于测试集多样性程度低的测试测试集,适合用源级变异测试。
[0016]2)变异模型生成。根据变异级别mutation_level选择相应的流程生成多个变异模型mutation_model。对于源级变异级别source,利用源级变异算子source_operator变异原始训练程序OP,再把OP与训练集TT进行训练,训练出的变异模型mutation_model加入到变
异模型集合VM中;对于模型级变异级别model,利用OP与TT训练出原始模型origin_model,再用模型级变异算子model_operator变异origin_model,将mutation_model加入到VM中。
[0017]3)变异得分计算。给定查准率阈值pre_threshold、变异模型集合VM和测试集TS={TS1,TS2,...,TS
n
}。首先,如果VM中存在变异模型mutation_model,查准率pre_radio低于pre_threshold,就将mutation_model从VM中删除,目的在于排除了除了引入变异算子的其他原因而导致模型产生的差异性;接着,如果TS
k
中存在数据t
k,i
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向神经元特性的AI系统软件模型变异技术,其特征在于,首先计算出测试集中每个类别的数据子集的距离熵distance_entropy,即每个类子集的多样性程度,根据整个测试集的平均距离熵,量化测试集的整体多样性程度div_value,自动选择相应的变异级别mutation_level;在此基础上,选择相应级别的变异算子source_operator或model_operator,变异得到多个变异模型mutation_model;最后,筛选掉查准率较低的变异模型,计算剩余变异模型的变异得分mutation_score,有效地评估测试集质量;该方法包括下列步骤:1)变异级别自动选择,给定测试集TS={TS1,TS2,...,TS
n
};其中,每个类的子集TS
k
={t
k,1
,t
k,2
,...,t
k,m
};利用欧式距离distance(t
k,i
,t
k,j
)计算并用距离矩阵matrix保存TS
k
中两两数据的距离;欧式距离的计算公式如下:(n为数据x和y的维数)计算出距离矩阵matrix的最小生成树tree,并将tree的权重边加入到集合W中,其中W={w1,w2,
……
,w
m
‑1};基于W计算出TS
k
的距离熵dis_entropy,其计算公式如下:其中,对于n个测试子集,计算出dis_entropy的平均值div_value与div_threshold比较,得到相应的变异级别mutation_level;其计算公式如下:本步骤的目的是根据测试集的多样性,自动选择适合测试集的变异级别;具体地对于多样性程度高的测试集,适合用模型级变异测试;相反,对于测试集多样性程度低的测试测试集,适合用源级变异测试;2)变异模型生成,根据变异级别mutation_level选择相应的流程生成多个变异模型mutation_model;对于源级变异级别source,利用源级变异算子source_operator变异原始训练程序OP,再把OP与训练集TT进行训练,训练出的变异模型mutation_model加入到变异模型集合VM中;对于模型级变异级别model,利用OP与TT训练出原始模型origin_model,再用模型级变异算子model_opera...

【专利技术属性】
技术研发人员:王兴亚冯力超白光伟魏汉宇黄勇申玉强师玉星赵志宏
申请(专利权)人:南京慕测信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1