当前位置: 首页 > 专利查询>南通大学专利>正文

一种改进的基于大语言模型的漏洞检测方法技术

技术编号:40285334 阅读:21 留言:0更新日期:2024-02-07 20:38
本发明专利技术提供了一种改进的基于大语言模型的漏洞检测方法,属于计算机技术领域,解决了传统漏洞检测方法的准确率和效率低下的技术问题。其技术方案为:包括以下步骤:S1:构成漏洞数据集;S2:将数据集划分成训练集、验证集和测试集;S3:使用CodeT5模型提取语义特征;S4:通过计算语义相似度得到数据集中与目标代码最相似的TOP k个候选代码;S5:融合候选代码和目标代码的词法相似性和语法相似性得到一个混合分数;S7:加入身份信息提示和领域信息提示;S8:将提示、目标代码、图结构数据和最相似的示范提供给大语言模型。本发明专利技术的有益效果为:能够更准确地识别潜在的漏洞,并提高模型的鲁棒性和适应性。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种改进的基于大语言模型的漏洞检测方法


技术介绍

1、当前的漏洞检测方法主要依赖于规则、特征或模式匹配等方式来发现潜在的安全漏洞。然而,这些方法通常只能捕捉到表面的漏洞模式,难以处理复杂的语义关系和上下文信息。此外,传统方法可能需要手工设计规则或特征,无法自动适应不同的漏洞类型。

2、大语言模型的出现为漏洞检测带来了新的机遇。大语言模型具备了强大的语义理解能力和上下文推理能力,在大量的文本和代码等数据集上进行过训练,学习过大量的语言知识和模式。然而,仅仅使用大语言模型作为漏洞检测器存在一些限制。大语言模型通常是基于自然语言文本的预训练模型,难以直接应用于漏洞检测任务。此外,大语言模型可能对于特定的语境和领域知识缺乏敏感性,导致在漏洞检测中出现误报或漏报的情况。

3、在论文《an empirical model to predict security vulnerabilities usingcode complexity metrics》中,作者提出了通过代码复杂度作为度量特征,需要手动收集代码复杂度本文档来自技高网...

【技术保护点】

1.一种改进的基于大语言模型的漏洞检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进的基于大语言模型的漏洞检测方法,其特征在于,所述步骤1.1中通过从开源项目FFmpeg和Qemu中挖掘漏洞源代码,构成漏洞数据集D1,包括如下步骤:

3.根据权利要求1所述的一种改进的基于大语言模型的漏洞检测方法,其特征在于,所述步骤1.3中,使用CodeT5模型提取语义特征,并使用T-SNE处理语义向量取值,包括如下步骤:

4.根据权利要求1所述的一种改进的基于大语言模型的漏洞检测方法,其特征在于,所述步骤1.4中,通过计算语义相似度得到数据集中与...

【技术特征摘要】

1.一种改进的基于大语言模型的漏洞检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进的基于大语言模型的漏洞检测方法,其特征在于,所述步骤1.1中通过从开源项目ffmpeg和qemu中挖掘漏洞源代码,构成漏洞数据集d1,包括如下步骤:

3.根据权利要求1所述的一种改进的基于大语言模型的漏洞检测方法,其特征在于,所述步骤1.3中,使用codet5模型提取语义特征,并使用t-sne处理语义向量取值,包括如下步骤:

4.根据权利要求1所述的一种改进的基于大语言模型的漏洞检测方法,其特征在于,所述步骤1.4中,通过计算语义相似度得到数据集中与目标代码最相似的top k个候选代码,包括如下步骤:

5.根据权利要求1所述的一种改进的基于大语言模型...

【专利技术属性】
技术研发人员:陆桂龙鞠小林陈翔赵俊杰裴文龙蔡之龙
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1