基于图卷积网络对代码图表示学习的源代码漏洞检测方法技术

技术编号：25949366 阅读：27 留言：0更新日期：2020-10-17 03:41

本发明专利技术公开了一种基于图卷积网络对代码图表示学习的源代码漏洞检测方法，所述方法如下：生成代码属性图；在代码属性图中添加函数调用关系和过程间依赖关系；根据漏洞关键点获取代码切片；利用切片对图中节点进行删减，提取与漏洞相关的图结构信息；使用图卷积网络学习每个节点的向量表示；根据边的类型划分子图，并通过基于注意力机制的READOUT模型得到图的向量表示；根据图的向量表示和标签调整网络参数；用训练好的模型检测代码漏洞。本发明专利技术能充分利用和学习漏洞代码的结构和属性信息，避免传统深度网络在对代码表示学习时易丢失代码结构信息及因需要把代码表示成固定长度序列而丢失长代码上下文信息的问题，有助于降低漏洞检测的误报和漏报。

全部详细技术资料下载

【技术实现步骤摘要】
基于图卷积网络对代码图表示学习的源代码漏洞检测方法
本专利技术涉及一种软件漏洞检测方法，具体涉及一种基于图卷积网络对代码进行图表示学习的源代码漏洞检测方法。
技术介绍
软件漏洞是在软件设计与开发实现的过程中存在的一些容易被恶意攻击者利用的缺陷。传统的源代码审查技术在很大程度上取决于审查人员对安全问题的理解与长期经验的积累，并且在代码规模和复杂程度日益增大的情况下无法满足对漏洞检测的需求。基于机器学习的漏洞检测方法虽然避免了基于规则的漏洞检测方法依赖专家人工编写检测规则的问题，但是仍需要人工提取漏洞特征。而近年来成功应用于自然语言处理、图像识别、目标检测领域的深度学习技术可以降低对专家经验和手工特征工程的依赖，为自动提取漏洞特征和生成漏洞模式提供了可能。然而，由于编程语言的特殊性、漏洞类型的多样性、漏洞上下文的复杂性、漏洞代码与漏洞特征在抽象程度上的高差异性、漏洞代码与修复代码之间的高相似性，这些都使得深度学习自动学习漏洞模式比其他领域的深度学习问题更加困难，给基于深度学习的漏洞检测技术带来了巨大的挑战。当前用于自动学习漏洞模式的深度学习模型大多采用语言模型对代码语义进行建模，把代码的各种中间表示转化为一个平铺的一维序列，即将其当作自然语言文本，基于自然语言处理领域常用的深度神经网络(如LSTM和GRU)来处理转换后的代码序列，然后将其自动学习到的代码漏洞特征用于训练一个机器学习分类器，以进行漏洞检测。相对于自然语言文本而言，代码更具有结构化的特点，这种漏洞检测方法未能充分利用和学习漏洞代码的结构信息和...

【技术保护点】
1.一种基于图卷积网络对代码图表示学习的源代码漏洞检测方法，其特征在于所述方法包括如下步骤：/n步骤1：通过解析源代码，生成以抽象语法树、控制流图和程序依赖图联合表示代码结构信息，以代码内容和节点类型表示代码属性信息的代码属性图；/n步骤2：在代码属性图中添加函数调用关系和过程间依赖关系；/n步骤3：利用程序切片技术提取与漏洞关键点相关的程序切片；/n步骤4：利用得到的程序切片简化步骤1和步骤2提取得到的图结构信息，得到简化后的与漏洞相关的图结构：/n步骤5：使用图卷积网络对图数据进行表示学习，学习每个节点的向量表示；/n步骤6：根据边的类型，在图结构上划分出多个子图，并通过基于节点注意力机制的READOUT模型得到每个子图的向量表示，基于子图自注意力机制的READOUT模型得到全图的向量表示；/n步骤7：将得到的子图和全图的向量表示进行拼接后送入全连接层和softmax层得到预测结果，利用标签信息计算交叉熵损失函数，根据误差反向传播调整网络参数，直到网络对输入的响应达到预定的目标范围为止，训练结束；/n步骤8：用训练好的图卷积神经网络模型对代码进行漏洞检测。/n

【技术特征摘要】
1.一种基于图卷积网络对代码图表示学习的源代码漏洞检测方法，其特征在于所述方法包括如下步骤：
步骤1：通过解析源代码，生成以抽象语法树、控制流图和程序依赖图联合表示代码结构信息，以代码内容和节点类型表示代码属性信息的代码属性图；
步骤2：在代码属性图中添加函数调用关系和过程间依赖关系；
步骤3：利用程序切片技术提取与漏洞关键点相关的程序切片；
步骤4：利用得到的程序切片简化步骤1和步骤2提取得到的图结构信息，得到简化后的与漏洞相关的图结构：
步骤5：使用图卷积网络对图数据进行表示学习，学习每个节点的向量表示；
步骤6：根据边的类型，在图结构上划分出多个子图，并通过基于节点注意力机制的READOUT模型得到每个子图的向量表示，基于子图自注意力机制的READOUT模型得到全图的向量表示；
步骤7：将得到的子图和全图的向量表示进行拼接后送入全连接层和softmax层得到预测结果，利用标签信息计算交叉熵损失函数，根据误差反向传播调整网络参数，直到网络对输入的响应达到预定的目标范围为止，训练结束；
步骤8：用训练好的图卷积神经网络模型对代码进行漏洞检测。

2.根据权利要求1所述的基于图卷积网络对代码图表示学习的源代码漏洞检测方法，其特征在于所述步骤2的具体步骤如下：
步骤21：选取图中类型为函数的节点；
步骤22：遍历其孩子节点即函数体的节点，查找边类型为与控制流和数据流相关的边，获取到节点和边信息加入图结构信息中；
步骤23：从孩子节点中选取类型为Callee的节点，根据函数名和路径递归查找被调用的函数；
步骤24：重复步骤21、22、23，直至遍历完函数中的所有节点，得到与漏洞相关的控制流、程序依赖和函数调用的图结构信息。

3.根据权利要求1所述的基于图卷积网络对代码图表示学习的源代码漏洞检测方法，其特征在于所述步骤...

【专利技术属性】
技术研发人员：苏小红，段亚男，王甜甜，蒋远，赵玲玲，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙江;23

全部详细技术资料下载我是这个专利的主人