基于BERT的二进制代码相似性检测方法技术

技术编号：37210855 阅读：18 留言：0更新日期：2023-04-20 23:01

本发明专利技术涉及代码相似性检测技术领域，具体涉及基于BERT的二进制代码相似性检测方法。基于BERT的二进制代码相似性检测方法，包括：利用预训练数据集对BERT模型进行预训练，获得预训练后的通用模型；利用新数据集对通用模型进行重训练，获得微调模型，所述微调模型用于预测两个二进制代码是否相似。本发明专利技术的方法由两个独立的训练阶段组成，采用两阶段训练的关键优势是支持潜在的应用程序，允许重新利用预训练的模型，以使用更低成本的计算资源快速应用其他下游任务。其他下游任务。其他下游任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT的二进制代码相似性检测方法

[0001]本专利技术涉及代码相似性检测
，具体涉及基于BERT的二进制代码相似性检测方法。

技术介绍

[0002]代码相似性检测常用于代码预测、知识产权保护和漏洞搜索等领域，可分为源代码相似性检测和二进制代码相似性检测。软件的源代码通常难以获得，因此针对二进制代码的相似性检测技术能够适用的场景更加广泛。由于二进制代码具有非常简洁的表示形式，因为编译时的大量转换导致了大多数高级概念（例如，变量名、结构、类型、类层次结构）的丢失，因此推断潜在的上下文含义非常具有挑战性。根据关注的代码信息的不同，当前的二进制代码相似性检测技术分为4类：基于文本、基于属性度量、基于程序逻辑、基于语义的检测技术。
[0003]基于语义的检测技术，它通过捕获程序汇编代码中的语义信息，来比较函数或组件的语义差异，已实现相似性度量。这类方法通常借鉴图像识别或其它领域的技术，利用深度神经网络来实现程序语义的嵌入，通过对嵌入向量的比较或查询操作来实现大规模任务的处理。例如BinDNN模型，利用了CNN，LSTM（长
‑
短期存储器）和DNN这3种类型的神经网络模型，将模型进行分层，学习函数汇编代码并判断函数是否相似；SAFE模型，将基于Word2vec模型的函数语义嵌入模型，可实现跨架构函数相似性度量。
[0004]传统检测方法所采用的匹配算法通常是固定不变的，神经网络可以针对不同任务进行再训练，应用场景更加广阔；此外，神经网络不但可以自行学习和选择特征，还可以习得人工方法...

【技术保护点】

【技术特征摘要】
1.基于BERT的二进制代码相似性检测方法，其特征在于，包括：利用预训练数据集对BERT模型进行预训练，获得预训练后的通用模型；利用新数据集对通用模型进行重训练，获得微调模型，所述微调模型用于预测两个二进制代码是否相似；其中，所述预训练数据集为进行归一化处理的函数语料库，所述归一化处理是指针对函数中的每一个指令，采用静态分析的方式进行如下处理：（1）将立即数按照跳转或调用目的地、调用的值本身、或者一个引用进行归一化处理；引用包括字符串、静态分配的常量或其它数据；（2）将寄存器按大小或者类型进行归一化处理；（3）指针表达式或当displacement为字符串引用时，其指令遵循原始格式：base+index*scale+displacement。2.根据权利要求1所述的基于BERT的二进制代码相似...

【专利技术属性】
技术研发人员：胡鹏飞，赵斌，郝立鹏，潘润宇，钟方天，底晓强，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人