一种基于LLM多源异构信息融合的二进制漏洞数据集构建方法和装置制造方法及图纸

技术编号：41313510 阅读：14 留言：0更新日期：2024-05-13 14:55

本发明专利技术涉及一种基于LLM多源异构信息融合的二进制漏洞数据集构建方法和装置，该方法包括：1)批量编译二进制文件TP构建开源二进制包的BDB(TP)；2)从漏洞信息发布平台获取漏洞信息经过预处理构成VulnVecDB，利用向量搜索在VulnVecDB中获取VulnID对应的漏洞信息，利用微调后的LLM进行知识推理获取VulnID对应的精确漏洞信息；3)根据精确漏洞信息从BDB(TP)中查找对应二进制文件后利用反汇编引擎提取VulnEntity，构建VulnAssFuncDB。本发明专利技术为了解决对物联网固件中二进制软件进行漏洞准确定位困难的问题，提出一种融合多源异构漏洞信息并结合LLM知识推理，从而精确获取二进制软件包中漏洞位置以及相关漏洞函数代码的方法，能够帮助安全研究人员迅速获得漏洞样本，增强物联网固件的安全漏洞挖掘的有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息，涉及一种基于llm(大型语言模型，large languagemodel)多源异构信息融合的二进制漏洞数据集构建方法和装置。

技术介绍

1、随着新型开源软件供应链开发模式的日益普及，由于代码复用问题引发的继承性漏洞问题日益突出。sonatype公司近年的软件供应链安全分析报告中指出由于开源软件代码复用产生的直接依赖关系导致的漏洞占据了相关漏洞中的6/7，在不同语言生态安全漏洞的普遍性统计中,含有已知漏洞的项目占比约为1/3。在依赖程度更深的情况下，继承性漏洞的检测更困难。攻击者通过攻击供应链上游软件可以影响大量下游相关软件，例如2021年末由cve(通用漏洞披露，common vulnerabilities and exposures)发布的apachelog4j漏洞cve-2021-44228涉及到的开源软件log4j影响了全球超过6万个开源软件，该漏洞的cvss(通用漏洞评分系统，common vulnerability scoring system)得分达到了系统最高分10分。由于该漏洞的高危害性和低利用难度，...

【技术保护点】

1.一种基于LLM多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于LLM多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于LLM多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，所述通过批量编译构建目标软件包以及所述在文件编译时进行插桩，包括：

4.根据权利要求2所述的一种基于LLM多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，所述预处理和文本嵌入包括：

5.根据权利要求4所述的一种基于LLM多源异构信息融合的二进制...

【技术特征摘要】

1.一种基于llm多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于llm多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，包括以下步骤：

3.根据权利要求2所述的一种基于llm多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，所述通过批量编译构建目标软件包以及所述在文件编译时进行插桩，包括：

4.根据权利要求2所述的一种基于llm多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，所述预处理和文本嵌入包括：

5.根据权利要求4所述的一种基于llm多源异构信息融合的二进制漏洞数据集构建方法，其特征在于，所述利用微调后的llm结合相关漏洞信息进行知识推理，获取精确漏洞信息，包括：

6.根据权利要求2所述的一种基于ll...

【专利技术属性】
技术研发人员：芮志清，吴敬征，罗天悦，武延军，刘宇航，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人