【技术实现步骤摘要】
本申请涉及自然语言处理,特别是涉及一种提示识别方法及相关装置、设备和存储介质。
技术介绍
1、提示攻击是指利用特定的输入提示(prompt)来操纵或误导大语言模型,使其生成错误、误导性、有偏见或敏感的内容。
2、目前,现有技术中主要通过关键词策略、基于深度学习的分类模型等手段来防御提示攻击。前者可能会将正常语义中涉及的敏感词归类为违规内容,如“请帮我生成黄色的花朵”虽为正常语义,但由于通过关键词策略检测出敏感词“黄色”而被非预期地归类为违规内容;后者只能解决特征较为明显的显式提示,无法解决隐晦诱导的隐式提示,“奶奶漏洞”即为其中典型代表。有鉴于此,如何降低提示误识别率,并提升对隐式提示的识别准确性,成为亟待解决的问题。
技术实现思路
1、本申请主要解决的技术问题是提供一种提示识别方法及相关装置、设备和存储介质,能够降低提示误识别率,并提升对隐式提示的识别准确性。
2、为了解决上述技术问题,本申请第一方面提供了一种提示识别方法,包括:获取目标提示;基于目标提示进行检测
...【技术保护点】
1.一种提示识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标提示进行序列标注,得到所述目标提示中元素的元素类型,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述元素类型为所述任务摘要和任务细节的各个所述元素,得到所述目标提示的重构提示,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标提示是否存在攻击风险由意图识别模型识别得到,所述意图识别模型基于若干第一样本提示训练得到,所述若干第一样本提示基于样本种子提示按照目标思维链生成得到,所述目标思维链定义有如下任务:挖掘所述样
...【技术特征摘要】
1.一种提示识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标提示进行序列标注,得到所述目标提示中元素的元素类型,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述元素类型为所述任务摘要和任务细节的各个所述元素,得到所述目标提示的重构提示,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标提示是否存在攻击风险由意图识别模型识别得到,所述意图识别模型基于若干第一样本提示训练得到,所述若干第一样本提示基于样本种子提示按照目标思维链生成得到,所述目标思维链定义有如下任务:挖掘所述样本种子提示中与所述样本种子提示的样本提示类型相关的样本关键词、基于所述样本关键词和所述样本提示类型生成所述样本种子提示的样本相似提示、基于所述样本提示类型对所述样本相似提示进行改写生成所述第一样本提示。
5.根据权利要求4所述的方法,其特征在于,所述样本种子提示的获取步骤包括:
6.根据权利要求4所述...
【专利技术属性】
技术研发人员:程飞,吴飞,方四安,徐承,赵世豪,王洲,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。