一种指令响应方法、电子设备、存储介质及程序产品技术

技术编号:44969758 阅读:37 留言:0更新日期:2025-04-12 01:43
本申请实施例提供一种指令响应方法、电子设备、存储介质及程序产品,在接收到待处理指令后,首先利用已训练的大语言模型进行越狱攻击检测,判断指令的安全性。若指令安全(即不包含越狱攻击行为),则利用同一模型生成相应的响应结果,保证了处理的连贯性和高效性。若检测到越狱攻击行为,则立即拒绝该指令,有效防范了潜在的安全风险。这种同步处理的方式,不仅提升了模型的安全性,还确保了模型响应的及时性。

【技术实现步骤摘要】

本申请涉及人工智能安全,具体而言,涉及一种指令响应方法、电子设备、存储介质及程序产品


技术介绍

1、随着人工智能技术的快速发展,大语言模型(large language models,llms)如gpt系列模型在自然语言处理领域取得了显著的进展。这些模型能够生成连贯、自然的文本,并在多种任务中表现出色,如对话生成、文本摘要、机器翻译等。然而,随着大语言模型的广泛使用,安全性问题也逐渐凸显出来。特别是恶意用户可能通过输入“越狱指令”绕过模型安全机制,引导模型生成不安全或有害内容。这种越狱攻击行为不仅可能对用户造成误导,还有可能引发法律风险。尽管已有一些针对大语言模型的安全防护措施被提出,但尚缺乏一种有效的方法来使模型具备越狱攻击检测能力,并实现越狱攻击检测与模型推理的同步处理。


技术实现思路

1、本申请实施例的目的在于提供一种指令响应方法、电子设备、存储介质及程序产品,用以实现同步处理越狱攻击检测与推理的技术效果。

2、本申请实施例第一方面提供了一种指令响应方法,所述方法包括:

3、获本文档来自技高网...

【技术保护点】

1.一种指令响应方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述利用所述已训练的大语言模型生成针对所述待处理指令的响应结果,包括:

3.如权利要求1所述的方法,其特征在于,系统内存中存储有所述待处理指令对应的注意力矩阵;所述注意力矩阵用于表征所述待处理指令中各个元素间的注意力分配关系;所述利用所述已训练的大语言模型生成针对所述待处理指令的响应结果,包括:

4.如权利要求2或3所述的方法,其特征在于,在所述指示所述已训练的大语言模型拒绝所述待处理指令之后,还包括:

5.一种大语言模型训练方法,其特征在于,所述方法...

【技术特征摘要】

1.一种指令响应方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述利用所述已训练的大语言模型生成针对所述待处理指令的响应结果,包括:

3.如权利要求1所述的方法,其特征在于,系统内存中存储有所述待处理指令对应的注意力矩阵;所述注意力矩阵用于表征所述待处理指令中各个元素间的注意力分配关系;所述利用所述已训练的大语言模型生成针对所述待处理指令的响应结果,包括:

4.如权利要求2或3所述的方法,其特征在于,在所述指示所述已训练的大语言模型拒绝所述待处理指令之后,还包括:

5.一种大语言模型训练方...

【专利技术属性】
技术研发人员:薛智慧安晓宁
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1