【技术实现步骤摘要】
本专利技术涉及网络安全,特别涉及一种基于对比学习的二进制代码相似性检测方法及系统。
技术介绍
1、近年来,深度学习已广泛应用于二进制代码相似度检测(bcsd)领域,提出了多种基于深度学习的方法,其在效果和可伸缩性方面超越了传统的静态和动态分析方法。这些方法通常的流程是将目标二进制函数代码嵌入向量中,并计算向量空间内函数的相似性。例如,gemini使用图神经网络(gnn)基于统计特征和控制流图(cfg)信息将函数编码为向量,用于相似性检测。其他方法,如safe和jtrans则使用自然语言处理(nlp)模型学习汇编语言的表征。尽管这些方法已经取得了不错的性能,但仍存在一些局限性。如,现有深度学习的方法在构建数据集时,经常使用样本配对,例如,正样本和正样本配对、正样本和负样本配对,但是在正样本和负样本配对的时候,负样本通常是随机选择配对的,这样会导致大量无效或低信息量的样本对,进而导致模型无法充分挖掘样本的潜力。尽管二进制代码相似性检测领域中已经出现了许多基于深度学习的bcsd方法,但其中大多数都忽视了训练样本的问题。虽然在图像领域已经对训练
...【技术保护点】
1.一种基于对比学习的二进制代码相似性检测方法,其特征在于,包含:
2.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用函数优化编译方法对二进制函数对进行编译,包含:
3.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用正样本对进行对比学习训练,包含:
4.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含:
5.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含
6....
【技术特征摘要】
1.一种基于对比学习的二进制代码相似性检测方法,其特征在于,包含:
2.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用函数优化编译方法对二进制函数对进行编译,包含:
3.根据权利要求1所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用正样本对进行对比学习训练,包含:
4.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含:
5.根据权利要求3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,提取正样本对中的函数特征,包含:
6.根据权利要求1或3所述的基于对比学习的二进制代码相似性检测方法,其特征在于,利用动量编码器在对比学习训练中重复利用函数嵌入向量的过程表示为:θm←λθm+(1-λ)...
【专利技术属性】
技术研发人员:尹小康,李龙飞,蔡瑞杰,杨启超,王俊峰,张大龙,赵方方,刘胜利,
申请(专利权)人:中国人民解放军战略支援部队信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。