自动化人工智能漏洞检测系统技术方案

技术编号：21851277 阅读：32 留言：0更新日期：2019-08-14 00:29

本系统涉及计算机软件安全领域，针对计算机软件漏洞检测公开了一种直接在二进制语言(即机器语言)上基于人工智能的自动化漏洞检测方法，命名为自动化人工智能漏洞检测系统，其中，自动化人工智能漏洞检测系统包括在二进制语言上基于人工智能的函数识别；在函数在二进制语言上被识别的前提下，应用基于人工智能的方法检测漏洞。本申请实施例的方法，用户能够在拿不到源码的前提下，对购买的软件进行漏洞检测，从而解决了对闭源软件快速的进行漏洞检测的问题。同时自动化人工智能漏洞检测系统能否离线训练模型，然后利用训练好的模型在线检测，尤其是针对大的软件进行快速的检测，从而避免了现存的一些软件面对大的软件效率非常底下的问题。

Automatic Artificial Intelligence Vulnerability Detection System

全部详细技术资料下载

【技术实现步骤摘要】
自动化人工智能漏洞检测系统
本系统涉及计算机软件安全领域，针对计算机软件漏洞检测研发了一种直接在二进制语言(即机器语言)上基于人工智能的漏洞检测方法，命名为自动化人工智能漏洞检测系统。
技术介绍
随着计算机的发展，计算机软件呈现了爆发式的增长，计算机软件的漏洞和计算机软件的发展呈现了正相关性。研究表明网络空间安全事件的一个主要原因是软件中难以发现的漏洞和难以实现的漏洞检测。统计表明到2019年，网络犯罪的全球成本将达到2万亿美元，是2015年估计的5000亿美元的三倍。今年全球打击网络犯罪的支出将达到800亿美元。同时，网上的闭源软件也给漏洞的检测带来了很大的挑战。目前静态分析的技术主要是基于源码进行分析的，比如形式化验证，符号验证和污点分析等都需要源码来进行漏洞的挖掘，基于目前很多软件都不是开源软件，这就给目前的静态分析技术带来了很大的挑战。同时目前也有动态检测技术可以对基于二进制语言的软件进行检测，但是常用的系统比如fuzzing会因为输入问题导致测试崩溃，改进的fuzzing系统也面临各种问题，比如符号执行支持的fuzzing依然会面临路径爆炸问题，也就是随着软件的代码越来越多，测试的路径就会越来越多，最终导致测试崩溃。最重要的是辅助的fuzzing对机器要求特别高，Driller在我们的32线程，64G内存的机器上运行一周也没有检测到漏洞，后面我们了解到。Driller战队用的是计算功能强大的计算机运行的比赛数据。再者，虽然有商用软件可以进行漏洞分析，但是根据我们的经验，商用软件比如IDAPro检测所消耗的时间比较久，一旦遇到大的软件，检测周期太长...

【技术保护点】
1.一种基于人工智能的漏洞检测系统，该检测系统的后台包括两个阶段：离线模型训练和在线漏洞扫描。其特征包括：根据从漏洞平台收集的训练数据，训练预定函数识别模型和预定漏洞扫描模型，从而完成第一个阶段的离线模型训练，训练数据至少包括以下一项：NVD(美国国家漏洞数据库)、CWE(通用漏洞库)，和GitHub(控制和协作的软件项目托管平台)上的数据；对测试软件发出的漏洞扫描请求进行漏洞扫描，当所上传的软件通过初步检查后，通过预训练的函数识别模型对该上传的测试软件进行函数识别，然后漏洞扫描模型对已经识别的函数进行漏洞扫描，并输出扫描结果。

【技术特征摘要】
1.一种基于人工智能的漏洞检测系统，该检测系统的后台包括两个阶段：离线模型训练和在线漏洞扫描。其特征包括：根据从漏洞平台收集的训练数据，训练预定函数识别模型和预定漏洞扫描模型，从而完成第一个阶段的离线模型训练，训练数据至少包括以下一项：NVD(美国国家漏洞数据库)、CWE(通用漏洞库)，和GitHub(控制和协作的软件项目托管平台)上的数据；对测试软件发出的漏洞扫描请求进行漏洞扫描，当所上传的软件通过初步检查后，通过预训练的函数识别模型对该上传的测试软件进行函数识别，然后漏洞扫描模型对已经识别的函数进行漏洞扫描，并输出扫描结果。2.根据权利要求1所述的方法，离线训练阶段包括基于人工智能的函数识别模型的建立，其特征在于：基于收集的二进制语言语言上的函数，利用objdump对函数的范围进行识别，分别对识别的函数标注类别，标注为为函数的起始点和函数结束点；同时通过对比训练的数据库NVD、CWE、和GitHub,对识别的函数标注类别，分别为有漏洞的函数和正常的函数；在此基础上利用模糊信息处理技术对训练的数据进行重要特征的提取和学习，然后双向长短记忆模型在提取的特征上进一步训练，输出位训练好的函数识别模型，最后在后台系统中嵌入该函数识别模型，用于函数识别；并将处理的函数数据的信息存储至第一预设数据库中。3.根据权利要求2所述的方法，其特征在于，对训练数据采用长短记忆注意力模型进行学习，包括：基于二进制语言的训练数据，利用长短记忆力模型对数据进行编码，学习重要的特征，建立函数识别的模型，然后长短记忆力模型对函数进行解码，识别函数的位置。4.根据权利要求1所述的方法，离线训练阶段包括基于人工智能的漏洞检测模型的建立，其特征在于：先用模糊信息处理技术对标记好的训练数据进行“样本的分布均衡化”，然后双向GRU神经网络模型在数据上学习，输出为训练好的漏洞检测模型，后台系统中嵌入该模型，用于漏洞扫描；并将处理的函数数据的信息存储至第二预设数据库中。5.根据权利要求2或4所述的方法，其特征在于，利用离线训练的函数识别模型和漏洞扫描模型...

【专利技术属性】
技术研发人员：刘士刚，
申请(专利权)人：刘士刚，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人