【技术实现步骤摘要】
本专利技术属于模型安全,具体涉及一种基于隐藏状态插值的大语言模型可用性增强方法和装置。
技术介绍
1、近年来,大型语言模型(large language model,简称 llm)取得了显著进步,在自然语言处理(natural language processing,简称 nlp)的多个任务中达到了最先进的性能。尽管其能力令人印象深刻。然而,llm 在现实世界的应用部署中引发了重大安全问题,尤其体现在其可能生成有害、带有偏见或误导性的内容。为了减轻这些风险,大语言模型发布商已将各种内容审查机制集成到llm中。虽然这些审查机制对于确保负责任的ai部署至关重要,但它们存在固有局限性,且这种固有局限性直接限制了大语言模型在合法情况下的可用性输出。特别是,显式拒绝策略检测到有害输入时直接返回拒绝短语,如“无法回答”,通常遵循僵硬且易于识别的模式,使其容易被对抗性利用而绕过。
2、现有的大语言模型在安全方面的敏感问题上实现的可用性增强方法主要分为两类:
3、(1)基于提示的对抗性攻击,即通过操纵输入文本诱导大语言模型响应的
...【技术保护点】
1.一种基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,定义一组指示生成内容过滤的拒绝词汇集合和一组指示鼓励肯定性响应的正向词汇集合,基于拒绝词汇集合或正向词汇集合对词元进行匹配来检测词元是否为拒绝词汇或正向词汇。
3.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,基于梯度分析模型各层的隐藏状态,筛选具有显著梯度贡献的最后一层隐藏状态作为修改目标,包括:
4.根据权利要求1所述的基于隐藏状态插值的大语
...【技术特征摘要】
1.一种基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,定义一组指示生成内容过滤的拒绝词汇集合和一组指示鼓励肯定性响应的正向词汇集合,基于拒绝词汇集合或正向词汇集合对词元进行匹配来检测词元是否为拒绝词汇或正向词汇。
3.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,基于梯度分析模型各层的隐藏状态,筛选具有显著梯度贡献的最后一层隐藏状态作为修改目标,包括:
4.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,对修改目标进行隐藏状态插值,包括:
5.根据权利要求4所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,其中控制混合比例根据尝试次数自适应确定:...
【专利技术属性】
技术研发人员:韩蒙,邢文鹏,赵懿然,林昶廷,胡春强,乔通,张光欣,
申请(专利权)人:杭州君同未来科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。