基于样本差异的代码分类深度学习模型解释方法及系统技术方案

技术编号：37142068 阅读：14 留言：0更新日期：2023-04-06 21:48

本发明专利技术涉及一种基于样本差异的代码分类深度学习模型解释方法及系统，该方法包括：离线解释器模型训练步骤：对训练集中的每个代码样本，构造代码变换生成差异样本，通过删除特征生成差异样本并计算特征重要分数，通过片段截取生成差异样本并计算特征重要分数，将原始样本、差异样本与特征重要分数输入神经网络进行训练，得到训练好的解释器；在线代码样本解释步骤：对目标代码样本片段使用解释器提取代码样本中的重要特征，然后使用基于影响函数的方法查找训练集中对测试样本预测贡献最大的训练样本，比较得到的重要特征和对预测贡献最大的训练样本，最后生成目标样本的解释结果。该系统包括离线解释器模型训练模块和在线代码样本解释模块。码样本解释模块。码样本解释模块。

全部详细技术资料下载

【技术实现步骤摘要】
基于样本差异的代码分类深度学习模型解释方法及系统

[0001]本专利技术涉及深度学习模型解释方法中基于特征选择的模型解释
，尤其涉及一种基于样本差异的代码分类深度学习模型解释方法及系统。

技术介绍

[0002]在过去的几年里，不同类型的神经网络已经被集成到代码应用中，例如代码功能分类、代码作者归属、源代码漏洞检测等。虽然深度学习在这些任务上优于人类，但它的性能和应用也因其缺乏可解释性而受到质疑。对于普通用户来说，机器学习，尤其是深度神经网络，就像一个黑匣子。它根据接收的输入反馈一个决策结果，但决策的过程和决策的依据对于用户来说都是不透明的。这种不透明性引起了对其结果可靠性的严重担忧，阻碍了深度学习在安全相关应用中的推广使用。
[0003]现有的源代码分类模型的解释方法主要可以分为基于扰动的特征显著性方法、基于注意力的方法和基于程序缩减的方法。以下非专利文件可作为本申请的引证文件：
[0004]引证文件1：Deqing Zou,Yawei Zhu,Shouhuai Xu,Zhen Li,Hai Jin,and Hengkai Ye.2021.Interpreting deep learning
‑
based vulnerability detector predictions based on heuristic searching.ACM Transactions on Software Engineering and Methodology(TOSEM)30,2(2021),...

【技术保护点】

【技术特征摘要】
1.一种基于样本差异的代码分类深度学习模型解释方法，其特征在于，其包括如下步骤：离线解释器模型训练步骤：对训练集中的每个代码样本，构造代码变换生成差异样本，通过删除特征生成差异样本并计算特征重要分数，通过片段截取生成差异样本并计算特征重要分数，将原始样本、差异样本与特征重要分数输入神经网络进行训练，得到训练好的解释器；在线代码样本解释步骤：对目标代码样本片段使用解释器提取代码样本中的重要特征，然后使用基于影响函数的方法查找训练集中对测试样本预测贡献最大的训练样本，比较得到的重要特征和对预测贡献最大的训练样本，最后生成目标样本的解释结果。2.根据权利要求1所述的方法，其特征在于，所述离线解释器模型训练步骤包含如下分步骤：构造代码变换生成差异样本：对于输入的代码样本，扫描所有符合变换条件的代码变换点，生成若干个对应维度的变换向量，根据生成的变换向量进行代码变换，对生成的差异样本进行筛选，删除不符合预期的样本得到差异样本集合。3.根据权利要求1或2所述的方法，其特征在于，所述离线解释器模型训练步骤包含如下分步骤：删除特征计算特征重要分数：分别删除代码样本中的每个特征生成差异样本，得到与特征数量对应的差异样本，将差异样本输入待解释模型中进行预测，根据删除特征前后预测值的变化生成对应特征的重要性分数。4.根据权利要求1～3任一项所述的方法，其特征在于，所述离线解释器模型训练步骤包含如下分步骤：进行片段截取计算特征重要分数：对代码样本，以其中的每一个特征为截取点，截取样本的第一个特征到截取点之间的特征，得到截取的代码片段，对截取后代码片段末尾补零生成固定长度的向量后，输入待解释模型中进行预测，根据截取点移动前后预测值的变化生成对应特征的重要性分数。5.根据权利要求1～4任一项所述的方法，其特征在于，所述离线解释器22CN1054AF定稿December 8,2022模型训练步骤包含如下分步骤：训练鲁棒的解释器：构建解释器和两个逼近器深度神经网络结构，定义损失函数，然后固定两个逼近器，训练解释器，之后固定解释器，训练两个逼近器，循环迭代训练，直至损失收敛，以最终获得训练好的解释器。6.根据权利要求1～5任一项所述的方法，其特征在于，解释器和两个逼近器的模型结构设计为，逼近器的结构与原始的待解释模型相同，解释器的模型结构取决于输入数据的具体格式，其中，若输入数据为序列形式，解释器的结构设计为循环神经网络形式；若输入数据为抽象语法树形式，解释器的结构设计为基于抽象语法树的卷积神经网络形式。7.根据权利要求1～6任一项所述的方法，其特征在于，所述在线代码样本解释步骤包括以下分步骤：提取目标样本中的重要特征：将目标样本向量输入到训练...

【专利技术属性】
技术研发人员：李珍，张茹茜，邹德清，金海，李洋瑞，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人