【技术实现步骤摘要】
本专利技术涉及网络安全领域,特别涉及一种网络安全指令微调数据集的高效构建方法。
技术介绍
1、在网络安全领域,针对通用大模型的微调是一种能够提升其专业领域知识和处理领域任务能力的方法。为了微调一个在网络安全方面具备强大能力的大模型,需要高质量的网络安全指令数据作为基础。一个高质量的网络安全指令微调数据集应当具备以下特征:完备的主题分类,以系统性地覆盖网络安全的各个子领域;清除掉低质量的数据,例如重复度过高、与主题相关性较低、问题含糊不清或回答错误的数据等。然而,当前网络安全领域的数据集数量较少,体系性的高质量数据集更是稀缺。而人工生成和标注数据集成本高、耗时长,难以实现大规模应用。
技术实现思路
1、针对现有技术中存在的问题,提供了一种网络安全指令微调数据集的高效构建方法,能够快速生成完备的、系统性的高质量网络安全数据集,解决了网络安全垂直领域大模型训练微调数据匮乏的问题。
2、本专利技术第一方面提出了一种网络安全指令微调数据集的高效构建方法,包括:
3、对网络安全
...【技术保护点】
1.一种网络安全指令微调数据集的高效构建方法,其特征在于,包括:
2.根据权利要求1所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述利用GPT大模型批量生成网络安全指令,具体包括:
3.根据权利要求2所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述利用GPT大模型生成网络安全指令,具体包括:
4.根据权利要求2所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述过滤相似的网络安全指令,具体包括:
5.根据权利要求3所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述重复生成、过滤的
...【技术特征摘要】
1.一种网络安全指令微调数据集的高效构建方法,其特征在于,包括:
2.根据权利要求1所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述利用gpt大模型批量生成网络安全指令,具体包括:
3.根据权利要求2所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述利用gpt大模型生成网络安全指令,具体包括:
4.根据权利要求2所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述过滤相似的网络安全指令,具体包括:
5.根据权利要求3所述的网络安全指令微调数据集的高效构建方法,其特征在于,所述重复生成、过滤的过程,直至生成所需数量的网络安全指令,具体包括:
6.根据权利要...
【专利技术属性】
技术研发人员:江海涛,李镭,盘善海,郭志君,周佳,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。