一种基于树结构卷积神经网络的软件安全漏洞检测方法技术

技术编号：22102138 阅读：145 留言：0更新日期：2019-09-14 03:25

本发明专利技术公开了一种基于树形结构卷积神经网络的软件漏洞检测方法，分析源代码得到抽象语法树AST结构，提取AST结构中各结点的结点类型；构建包含embedding层的神经网络预处理模型，其输入为提取的结点类型，输出为结点类型的预测概率；利用结点类型进行神经网络训练；训练完成后，将embedding层输出的向量特征值作为卷积神经网络模型的输入，以源代码是否存在漏洞为标签，训练卷积神经网络模型作为代码分类器；对于待检测源代码，提取其AST结构中的结点类型，重新训练神经网络预处理模型，将embedding层输出的向量特征值输入卷积神经网络模型，得到漏洞检测结果。本发明专利技术能更好的提取代码中的特征信息，从而给出能全面的分析结果。

A Software Security Vulnerability Detection Method Based on Tree-structured Convolutional Neural Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于树结构卷积神经网络的软件安全漏洞检测方法
本专利技术涉及软件源代码中代码漏洞预测
，尤其涉及一种基于树形结构卷积神经网络的软件漏洞检测方法。
技术介绍
软件中的隐藏漏洞给攻击者提供了攻击入口，这些漏洞通常是由程序员在编程时遗留或处理不当的细微错误引起的。开源软件和代码重用的普遍存在也导致了漏洞的快速传播。漏洞检测模型能够检测到软件代码中存在的漏洞，软件开发者根据检测结果，可以针对那些漏洞存在几率大的模块进行二次审查，将有限的时间和经费有针对性的投入到那些存在漏洞可能性高的软件模块测试中，以此提高软件测试的效率。研究者们提出了很多基于机器学习和深度学习的漏洞检测方法，这些方法以大量开源代码为数据源，对代码使用静态分析、动态分析或混合动态分析，提取代码的特征信息，得到可以喂给深度学习模型的输入，训练漏洞检测的分类器，取得了很好的成果。Hovsepyanetal.提出了一种将SVM与BOW相结合的模型，根据Java源码来预测代码中是否含有漏洞。分析Java代码得到一系列token，由BOW算法生成一系列token的向量特征表示，然后使用SVM模型去预测代码是否具有漏洞。RebeccaL.Russelletal.提出了一种基于代码token的卷积神经网络模型，通过词法分析器获取到C/C++源码的token序列，然后通过模型中的embedding层训练得到向量化特征表示，经过卷积神经网络完成对代码的漏洞预测。类似的基于代码token序列的分析方法还有XinboBanetal.提出的基于BILSTM模型的漏洞分类器，使用SILSTM改善了RNN模型梯度消...

【技术保护点】
1.一种基于树形结构卷积神经网络的软件漏洞检测方法，其特征在于，包括：步骤一、分析源代码得到抽象语法树AST结构，提取AST结构中的每一个结点的结点类型；步骤二、构建包含词嵌入层embedding的神经网络预处理模型；神经网络输入为从AST结构中提取的结点类型，神经网络输出为结点类型的预测概率向量；embedding层的输出为结点类型的向量表示，称为向量特征值；利用步骤一提取的结点类型进行神经网络训练；步骤三、神经网络训练完成后，将embedding层输出的向量特征值作为卷积神经网络模型的输入，以步骤一所使用的源代码是否存在漏洞为标签，训练卷积神经网络模型作为代码分类器；步骤四、对于待检测源代码，按照步骤一和步骤二重新训练神经网络预处理模型，训练完成后将embedding层输出的向量特征值输入卷积神经网络模型，得到漏洞检测结果。

【技术特征摘要】
1.一种基于树形结构卷积神经网络的软件漏洞检测方法，其特征在于，包括：步骤一、分析源代码得到抽象语法树AST结构，提取AST结构中的每一个结点的结点类型；步骤二、构建包含词嵌入层embedding的神经网络预处理模型；神经网络输入为从AST结构中提取的结点类型，神经网络输出为结点类型的预测概率向量；embedding层的输出为结点类型的向量表示，称为向量特征值；利用步骤一提取的结点类型进行神经网络训练；步骤三、神经网络训练完成后，将embeddin...

【专利技术属性】
技术研发人员：危胜军，魏文媛，单纯，胡昌振，赵敬宾，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人