基于自然语言处理与深度森林的Java漏洞分类方法技术

技术编号：36428712 阅读：16 留言：0更新日期：2023-01-20 22:39

本发明专利技术公开了一种基于自然语言处理与深度森林的Java漏洞分类方法，属于源代码漏洞挖掘和分类技术领域；本发明专利技术的主要内容有漏洞源代码特征提取与表示、漏洞源代码分类方法两方面；针对当前Java源代码静态分析方法效率低、误报率高的问题，将源代码解析为抽象语法树并通过基于NLP的ASTNN编码层将抽象语法树切割成表达式子树，两次遍历表达式子树得到语句序列并通过多粒度扫描得到源代码最终向量表示，然后将向量表示通过级联森林进行分类。实验选择OWASP漏洞数据集作为样本，验证了本文所提Java源代码漏洞分类方法的有效性。Java源代码漏洞分类方法的有效性。Java源代码漏洞分类方法的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
基于自然语言处理与深度森林的Java漏洞分类方法

[0001]本专利技术公开了一种Java源代码漏洞分类方法，尤其涉及一种基于自然语言处理与深度森林的Java源代码漏洞分类方法，属于源代码漏洞挖掘和分类

技术介绍

[0002]近年来随着软件规模的扩大和代码复杂度的不断提高，软件漏洞的数量也不断增长，根据漏洞知识库网站CVE details发布的数据，2021年业界向通用漏洞披露知识库(Common Vulnerabilities&Exposures，简称CVE)提交了20169个漏洞，较2020年的18325个增长了1844个且呈逐年增长态势。除了数量的增长，软件漏洞的形态也呈现出复杂性和多样性，给计算机系统的正常安全运行带来的威胁日益增大。
[0003]传统的漏洞挖掘方法主要有静态分析与动态分析两种，动态分析如符号执行等方法存在路径爆炸、约束求解难、内存建模与并行处理复杂等问题，因此动态分析方法不适用于代码规模巨大的项目以及批量漏洞挖掘；而静态分析技术对源代码的匹配规则取决于专家知识构造的漏洞模式，且因为硬编码到分析工具中导致其不具有泛化性，所以静态检测方法通常误报率较高。
[0004]基于机器学习的漏洞挖掘方法与传统静态分析不同，其通过学习隐藏在历史漏洞数据中的信息，挖掘漏洞数据中的特征并用于漏洞挖掘问题，因此漏洞样本代码表示的数量和有效性决定了模型最终的性能。由于代码度量、token序列等特征表示方法包含的源代码语法结构和语义信息较少，在其基础上训练得到的模型准确率较低...

【技术保护点】

【技术特征摘要】
1.基于自然语言处理与深度森林的Java漏洞分类方法，其特征在于：包括以下步骤：S1、获取或选择漏洞数据集；S2、对所述数据集进行数据预处理；S3、将源代码解析为抽象语法树；S4、采用ASTNN模型对抽象语法树进行处理，一棵抽象语法树首先被分割为包含若干棵表达式子树的列表；S5、对表达式子树列表中的每一棵表达式子树进行一次先序遍历以及后序遍历，获得两组节点标签集合作为语料库训练Word2Vec模型；S6、对表达式子树列表中的各表达式子树进行第二次先序遍历和后序遍历，同时修剪去除其中无关节点的信息得到节点集合，通过S5训练得到的Word2Vec模型将各节点转为d维向量v
n
；对每一棵表达式子树的d维向量使用式2进行递归更新得到一颗抽象语法树的向量表示；其中，为权重矩阵，n表示表达式子树的一个非叶子节点，T为矩阵转置操作，d为词嵌入的向量维数，k为编码维数，C为节点n对应的子节点数量，b
n
为偏差，σ为激活函数，h
i
为节点n的子节点i更新后的向量；S7、使用深度森林进行训练，同时使用测试标签集对生成的深度森林进行测试，获得Java代码漏洞分类模型。2.根据权利要求1所述的基于自然语言处理与深度森林的Java漏洞分类方法，其特征在于：S6中修剪方式...

【专利技术属性】
技术研发人员：丁家满，符纬康，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人