基于对比学习的二进制代码相似性检测方法及系统技术方案

技术编号:42000146 阅读:11 留言:0更新日期:2024-07-12 12:23
本发明专利技术涉及网络安全技术领域,特别涉及一种基于对比学习的二进制代码相似性检测方法及系统,通过获取二进制函数对,利用函数优化编译方法对二进制函数对进行编译,并生成相似性检测模型对比学习用的正样本对;依据编码器构建相似性检测模型并利用正样本对进行对比学习训练,以获取训练后的相似性检测模型,并利用动量编码器并通过维护指定长度的函数嵌入向量队列来在对比学习训练中重复利用函数嵌入向量;针对待相似性检测的目标二进制代码,利用训练后的相似性检测模型进行相似性检测并输出。本发明专利技术通过数据增强和对比学习来降低训练样本对和标签值对检测模型的影响,能够充分利用样本潜力,提高二进制相似性检测模型的性能,便于在实际代码分析、恶意软件检测等领域中进行部署实施。

【技术实现步骤摘要】

本专利技术涉及网络安全,特别涉及一种基于对比学习的二进制代码相似性检测方法及系统


技术介绍

1、近年来,深度学习已广泛应用于二进制代码相似度检测(bcsd)领域,提出了多种基于深度学习的方法,其在效果和可伸缩性方面超越了传统的静态和动态分析方法。这些方法通常的流程是将目标二进制函数代码嵌入向量中,并计算向量空间内函数的相似性。例如,gemini使用图神经网络(gnn)基于统计特征和控制流图(cfg)信息将函数编码为向量,用于相似性检测。其他方法,如safe和jtrans则使用自然语言处理(nlp)模型学习汇编语言的表征。尽管这些方法已经取得了不错的性能,但仍存在一些局限性。如,现有深度学习的方法在构建数据集时,经常使用样本配对,例如,正样本和正样本配对、正样本和负样本配对,但是在正样本和负样本配对的时候,负样本通常是随机选择配对的,这样会导致大量无效或低信息量的样本对,进而导致模型无法充分挖掘样本的潜力。尽管二进制代码相似性检测领域中已经出现了许多基于深度学习的bcsd方法,但其中大多数都忽视了训练样本的问题。虽然在图像领域已经对训练样本的问题进行了广泛本文档来自技高网...

【技术保护点】

1.一种基于对比学习的二进制代码相似性检测方法,其特征在于,包含:

2.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用函数优化编译方法对二进制函数对进行编译,包含:

3.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用正样本对进行对比学习训练,包含:

4.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含:

5.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含

6....

【技术特征摘要】

1.一种基于对比学习的二进制代码相似性检测方法,其特征在于,包含:

2.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用函数优化编译方法对二进制函数对进行编译,包含:

3.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用正样本对进行对比学习训练,包含:

4.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含:

5.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含:

6.根据权利要求1或3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用动量编码器在对比学习训练中重复利用函数嵌入向量的过程表示为:θm←λθm+(1-λ)...

【专利技术属性】
技术研发人员:尹小康李龙飞蔡瑞杰杨启超王俊峰张大龙赵方方刘胜利
申请(专利权)人:中国人民解放军战略支援部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1