提示注入攻击防御方法、装置、存储介质及电子设备制造方法及图纸

技术编号：42577071 阅读：20 留言：0更新日期：2024-08-29 00:40

本说明书实施例公开了一种提示注入攻击防御方法、装置、存储介质及电子设备，首先，在检测到向部署的大语言模型发起的当前提问请求时，通过预注入的安全切面服务拦截所述当前提问请求，并通过安全切面服务对当前提问请求进行伪装指令消除，得到目标提问请求，将目标提问请求输入到大语言模型中，以确定当前提问请求对应的安全回答反馈数据。本技术方案能够有效避免提示注入攻击，且不依赖于专家先验知识，提升提示注入攻击的防御准确性，提升大语言模型服务的安全性；同时，基于安全切面服务也不需要调整大语言模型的基础架构，有效降低提示注入攻击防御的工作量，降低成本，且安全切面服务的防御响应迅速，进一步提升安全性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及计算机，尤其涉及一种提示注入攻击防御方法、装置、存储介质及电子设备。

技术介绍

1、随着科学技术的飞速发展，生成式大语言模型（large language model，llm）越来越受到人们的关注。大语言模型是基于海量文本数据训练的深度学习模型，能够生成自然语言文本或理解语言文本的含义，这类模型可以执行多种自然语言处理（naturallanguage processing，nlp）任务，包括但不限于文本分类、问答和对话等。

2、提示注入攻击（prompt injection）是一种通过使用恶意指令作为输入提示的一部分来操纵语言模型输出的攻击技术，与信息安全领域中的其他注入攻击类似，当指令和主要内容连接时可能会发生提示注入，从而使大语言模型很难区分开。提示注入是对大语言模型产生较大影响的新型漏洞，注入恶意指令的提示可以操纵大语言模型执行恶意操作，具有严重的隐私泄露风险和数据安全风险。

3、目前，相关的提示注入攻击防御方案中，是通过分析用户的请求内容和大语言模型的回答内容，拦截命中专家规则的疑似注入攻击请...

【技术保护点】

1.一种提示注入攻击防御方法，所述方法包括：

2.根据权利要求1所述的提示注入攻击防御方法，所述安全切面服务包括指令输入检测模型，所述通过所述安全切面服务对所述当前提问请求进行伪装指令消除，得到目标提问请求，包括：

3.根据权利要求2所述的提示注入攻击防御方法，根据所述用户提问指令和所述用户输入内容对所述当前提问请求进行指令标注，得到所述目标提问请求，包括：

4.根据权利要求2所述的提示注入攻击防御方法，根据所述用户提问指令或者所述用户输入内容对所述当前提问请求进行指令标注，得到所述目标提问请求，包括：

5.根据权利要求1所述的提示注入攻击...

【技术特征摘要】

1.一种提示注入攻击防御方法，所述方法包括：

5.根据权利要求1所述的提示注入攻击防御方法，所述安全切面服务包括指令输入检测模型，所述通过所述安全切面服务对所述当前提问请求进行伪装指令消除，得到目标提问请求，包括：

6.根据权利要求5所述的提示注入攻击防御方法，所述对存在指令伪装意图的所述用户输入内容进行内容替换，得到目标提问请求，包括：

7.根...

【专利技术属性】
技术研发人员：刘焱，翁海琴，
申请(专利权)人：蚂蚁科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人