当前位置: 首页 > 专利查询>山东大学专利>正文

基于卷积自编码器的库函数识别检测方法及系统技术方案

技术编号:28623683 阅读:26 留言:0更新日期:2021-05-28 16:19
本公开提出了基于卷积自编码器的库函数识别检测方法及系统,包括:从各待测软件中提取出二进制函数对应的指令序列,然后提取出指令序列中的操作码;对两个操作码的连续序列进行计数,来为每个函数构造一个共现矩阵,用以作为输入来训练卷积自编码器模型,利用卷积自编码器模型进行瓶颈特征的提取,完成模型训练;用训练后的模型对库函数进行编码,然后对库函数进行相似性分析,识别出相似性系数最高的库函数并作为最终匹配项。拥有很好的泛用性,对各种新引入的匹配对象可以直接进行标记,并且获得很好的效果。

【技术实现步骤摘要】
基于卷积自编码器的库函数识别检测方法及系统
本公开属于计算机
,尤其涉及基于卷积自编码器的库函数识别检测方法及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。二进制代码分析,也称为二进制分析,是通过分析软件的原始二进制文件以提取其内部设计和实现方法的实践。对于代码分析人员,二进制代码包含大量可以检索的信息,如代码(指令、基本块和函数)、结构(控制和数据流)和数据(全局变量和堆栈变量)。此外,二进制分析提供了有关程序行为的基本写实,因为计算机执行的是二进制文件(可执行文件),而不是直接执行源代码。在源代码不可用甚至二进制代码可能被混淆的情况下,二进制分析对于保护程序、防止恶意代码注入和篡改有着重要的意义。此外,随着当今大多数网络安全威胁从网络级攻击转移到应用层,二进制代码分析变得更加重要。在过去的十年中,开源代码已成为软件开发的基础和创新的动力。常见的开发实践是在开发过程中,将开源库函数用于必要但通用的组件,以便开发人员可以专注于软件本身的功能开发和总体设计。从分析人员的角度来看,如本文档来自技高网...

【技术保护点】
1.基于卷积自编码器的库函数识别检测方法,其特征是,包括:/n从各待测软件中提取出二进制函数对应的指令序列,然后提取出指令序列中的操作码;/n对两个操作码的连续序列进行计数,来为每个函数构造一个共现矩阵,用以作为输入来训练卷积自编码器模型,利用卷积自编码器模型进行瓶颈特征的提取,完成模型训练;/n用训练后的模型对库函数进行编码,然后对库函数进行相似性分析,识别出相似性系数最高的库函数并作为最终匹配项。/n

【技术特征摘要】
1.基于卷积自编码器的库函数识别检测方法,其特征是,包括:
从各待测软件中提取出二进制函数对应的指令序列,然后提取出指令序列中的操作码;
对两个操作码的连续序列进行计数,来为每个函数构造一个共现矩阵,用以作为输入来训练卷积自编码器模型,利用卷积自编码器模型进行瓶颈特征的提取,完成模型训练;
用训练后的模型对库函数进行编码,然后对库函数进行相似性分析,识别出相似性系数最高的库函数并作为最终匹配项。


2.如权利要求1所述的基于卷积自编码器的库函数识别检测方法,其特征是,为了训练卷积自编码器模型,在开放平台上随机收集各版本、各类型的软件文件构成数据集,分别作为训练、验证和测试。


3.如权利要求1所述的基于卷积自编码器的库函数识别检测方法,其特征是,通过将操作码指令序列转换为一组n-grams,将其嵌入向量空间中,n-gram是来自给定样本的n个项目的连续序列。


4.如权利要求1所述的基于卷积自编码器的库函数识别检测方法,其特征是,对两个操作码的连续序列进行计数,操作码的连续序列即操作码的bi-gram,将bi-gram频率序列转换为共现矩阵,通过计算两个或多个操作码在给定指令集中共同出现的频率,进而从bi-gram频率序列构造操作码共现矩阵,来表示所有操作码对的bi-gram频率。


5.如权利要求1所述的基于卷积自编码器的库函数识别检测方法,其特征是,卷积自编码器,由结构对称的两个卷积神经网络构成,在编码器中,在每个卷积层和整流层之间添加了一个批量归一化即BN层,BN层用于规范化输入以加快网络收敛速度,以及使输出的分布更符合数据的真实分布,使用完全...

【专利技术属性】
技术研发人员:王风宇刘学谦孔健
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1