基于反编译大模型和EAST特征的二进制程序漏洞检测方法及系统技术方案

技术编号:45548403 阅读:15 留言:0更新日期:2025-06-17 18:21
本发明专利技术涉及计算机程序检测技术领域,特别涉及一种基于反编译大模型和EAST特征的二进制程序漏洞检测方法及系统,使用漏洞函数数据集和系统调用函数数据集对预训练反编译大模型LLM4Decompile进行微调,使LLM4Decompile对反编译器Ghidra输出的反编译后的伪代码进行语法语义优化;对微调后反编译大模型语法语义优化后的反编译伪代码提取对应的增强型抽象语法树EAST,并对增强型抽象语法树利用EASTNN模型进行特征编码;将编码后待检测非混淆二进制程序、漏洞函数数据集的特征向量输入Siamese网络中进行相似性计算,根据相似性计算结果评估非混淆二进制程序漏洞。本发明专利技术通过使用微调后反编译大模型和增强型抽象语法树特征编码,提升了非混淆二进制程序漏洞检测的准确率和效率。

【技术实现步骤摘要】

本专利技术涉及计算机程序检测,特别涉及一种基于反编译大模型和east特征的二进制程序漏洞检测方法及系统。


技术介绍

1、随着软件开发的复杂性和规模的不断增加,于开源计划和软件生命周期开发规则的逐渐流行,不同软件之间的开发由逐渐趋于模块化组合,虽然这种模块化的开发技术大大减少了新型软件的开发成本,节省了开发周期,但也导致使用同一存在漏洞的模块组件开发的软件也具备相同的漏洞,软件漏洞的数量和种类也在迅速增长。根据synopsys发布的2024open source security and risk analysis report,报告指出开源组件的使用具有普遍性,当前96%的代码库包含开源组件,77%源代码和文件来也来自开源,同时在开源组件也伴随着众多的漏洞和风险,其中84%的用于评估安全风险的开源代码库存在至少一个已知的漏洞,并且74%的这些代码库包含高风险漏洞,比2022年的统计的48%的显著增加,最后报告指出87%的计算机硬件和半导体行业的开源代码库包含高风险漏洞,说明计算机软硬件行业具有广泛漏洞风险,而二进制代码漏洞检测作为保障软件系统安全性的重要手本文档来自技高网...

【技术保护点】

1.一种基于反编译大模型和EAST特征的二进制程序漏洞检测方法,其特征在于,包括:

2.根据权利要求1所述的基于反编译大模型和EAST特征的二进制程序漏洞检测方法,其特征在于,对预训练反编译大模型LLM4Decompile进行微调的过程如下:

3.根据权利要求2所述的基于反编译大模型和EAST特征的二进制程序漏洞检测方法,其特征在于,在大模型微调过程中,进行损失函数计算包括:

4.根据权利要求1所述的基于反编译大模型和EAST特征的二进制程序漏洞检测方法,其特征在于,对微调后反编译大模型语法语义优化后的反编译伪代码提取对应的增强型抽象语法树EAST具体...

【技术特征摘要】

1.一种基于反编译大模型和east特征的二进制程序漏洞检测方法,其特征在于,包括:

2.根据权利要求1所述的基于反编译大模型和east特征的二进制程序漏洞检测方法,其特征在于,对预训练反编译大模型llm4decompile进行微调的过程如下:

3.根据权利要求2所述的基于反编译大模型和east特征的二进制程序漏洞检测方法,其特征在于,在大模型微调过程中,进行损失函数计算包括:

4.根据权利要求1所述的基于反编译大模型和east特征的二进制程序漏洞检测方法,其特征在于,对微调后反编译大模型语法语义优化后的反编译伪代码提取对应的增强型抽象语法树east具体包括:首先对大模型反编译后的伪代码进行预处理操作;然后对大模型反编译后的伪代码进行代码规范化处理;最后构建出经过规范化处理和语法语义补全的增强型抽象语法树。

5.根据权利要求4所述的基于反编译大模型和east特征的二进制程序漏洞检测方法,其特征在于,对大模型反编译后的伪代码进行预处理操作包含去除无效字符、基础语法补全和占位符标记;对大模型反编译后的伪代码进行代码规范化处理包含变量类型补全和推断,以及函数返回类型补全和推断。

6.根据权利要求1所述的基于反编译大模型和east特征的二进制程序漏洞检测方法,其特征在于,对...

【专利技术属性】
技术研发人员:费金龙孟琦芦斌祝凯捷王雪梦黄静
申请(专利权)人:中国人民解放军网络空间部队信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1