一种源代码分类模型鲁棒性增强方法、系统及处理器技术方案

技术编号：39041006 阅读：8 留言：0更新日期：2023-10-10 11:53

本发明专利技术涉及一种基于不变特征的源代码分类模型鲁棒性增强方法、系统及处理器，该方法包括：将非鲁棒性特征进行组合，以生成多种风格模板，使用代码变换程序将输入代码训练集中的代码变换成不同风格的新代码，以得到新代码组成的变换代码训练集，将输入代码训练集与变换代码训练集合并为扩充训练集，将扩充训练集中的代码文本转换为代码图片；通过数据预处理将代码图片转化为模型训练所需向量，在扩充训练集中随机抽取同类别的样本进行配对并输入到特征提取器，使用对比学习的方法迭代更新特征提取器和样本匹配对并提取出目标特征，将提取的不变特征输入分类器进行训练，以输出模型该系统包括：定向训练集扩充模块和强鲁棒性分类模型训练模块。类模型训练模块。类模型训练模块。

全部详细技术资料下载

【技术实现步骤摘要】
一种源代码分类模型鲁棒性增强方法、系统及处理器

[0001]本专利技术涉及深度学习模型鲁棒性研究中增强源代码分类模型鲁棒性领域，尤其涉及一种基于不变特征的源代码分类模型鲁棒性增强方法、系统及处理器。

技术介绍

[0002]随着计算机技术的发展和普及，软件已广泛应用于各个领域。然而，这些软件也带来了安全性问题。为了解决这些问题，源代码分类技术成为了安全研究的一个重要方向，其中包括漏洞检测、代码作者识别和克隆检测等技术。相较于传统方法，深度学习模型能够学习到各种不同类型的漏洞模式、编码风格、习惯、语法、结构和风格等特征，从而实现了自动化发现漏洞、自动识别代码作者以及检测出相似的代码克隆。深度学习模型具有更高的准确性和扩展性，可以更准确地识别代码中的结构和模式。
[0003]目前模型鲁棒性增强的方法广泛应用于深度学习模型的训练，主要包括以下几种：
[0004]1.数据增强：在训练数据上进行变换增加数据多样性，减少模型对特定数据分布的过拟合；
[0005]2.正则化：在损失函数中添加正则项，以限制权重参数的大小，防止模型过拟合；
[0006]3.对抗训练：通过让模型预测对抗样本的正确性来提高模型的鲁棒性；
[0007]4.分类网络结构设计：使用更具鲁棒性的网络结构，如卷积神经网络，来提高模型的泛化能力。
[0008]CN114503108A公开了一种方法和系统，用于通过计算系统中的一个或多个处理器来保护经过训练的机器学习模型。通过向一个或多个经过训练的机器学习模型添加对抗性保护...

【技术保护点】

【技术特征摘要】
1.一种基于不变特征的源代码分类模型鲁棒性增强方法，其特征在于，所述方法至少包括如下步骤：将非鲁棒性特征进行组合，以生成多种风格模板，使用代码变换程序将输入代码训练集中的代码变换成不同风格的新代码，以得到新代码组成的变换代码训练集，将输入代码训练集与变换代码训练集合并为扩充训练集，将扩充训练集中的代码文本转换为代码图片；通过数据预处理将代码图片转化为模型训练所需向量，在扩充训练集中随机抽取同类别的样本进行配对并输入到特征提取器，使用对比学习的方法迭代更新特征提取器和样本匹配对并提取出目标特征，将提取的不变特征输入分类器进行训练，以输出模型。2.根据权利要求1所述的方法，其特征在于，“将非鲁棒性特征进行组合，以生成多种风格模板”包括：对现有源代码分类模型和针对该源代码分类模型的攻击方法进行分析，总结出攻击方法生成攻击代码样本的变换目标特征和变换模式，其中，将受到攻击的目标特征作为非鲁棒性特征进行归类分组，抽取不同组合的非鲁棒性特征形成多种相互区别的风格模板。3.根据权利要求1或2所述的方法，其特征在于，“使用代码变换程序将输入代码训练集中的代码变换成不同风格的新代码，以得到新代码组成的变换代码训练集，将输入代码训练集与变换代码训练集合并为扩充训练集”包括：对输入代码训练集使用代码变换程序，依据代码风格模板对输入代码训练集中的代码进行定向的风格模板变换，生成语义相同、风格不同的新代码，其中，一个风格模板生成一组变换代码训练集，输入代码训练集与变换代码训练集合并为扩充训练集。4.根据权利要求1～3任一项所述的方法，其特征在于，“将扩充训练集中的代码文本转换为代码图片”包括：对扩充训练集的代码文本使用文本转图片工具，基于输入的代码文本生成被特殊处理的代码图片。5.根据权利要求1～4任一项所述的方法，其特征在于，“数据预处理”包括：将预处理后的图片转换为能够用于模...

【专利技术属性】
技术研发人员：李珍，叶君尧，邹德清，金海，曾祥洪，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人