基于隐藏状态插值的大语言模型可用性增强方法和装置制造方法及图纸

技术编号:45611532 阅读:16 留言:0更新日期:2025-06-24 18:41
本发明专利技术公开了一种基于隐藏状态插值的大语言模型可用性增强方法和装置,属于大语言模型安全技术领域,具体包括:在大语言模型的问答生成过程中,通过对生成词汇为拒绝词汇或正常词汇的判断来启动隐藏状态修改和可用性增强输出过程,在此过程中,通过基于梯度分析各层的隐藏状态,并从隐藏状态中筛选修改目标进行隐藏状态插值,然后再重新计算词元概率并进行词元选择,这样可以确保生成内容保持流畅,同时最大程度减少拒绝,实现大语言模型可用性增强输出。

【技术实现步骤摘要】

本专利技术属于模型安全,具体涉及一种基于隐藏状态插值的大语言模型可用性增强方法和装置


技术介绍

1、近年来,大型语言模型(large language model,简称 llm)取得了显著进步,在自然语言处理(natural language processing,简称 nlp)的多个任务中达到了最先进的性能。尽管其能力令人印象深刻。然而,llm 在现实世界的应用部署中引发了重大安全问题,尤其体现在其可能生成有害、带有偏见或误导性的内容。为了减轻这些风险,大语言模型发布商已将各种内容审查机制集成到llm中。虽然这些审查机制对于确保负责任的ai部署至关重要,但它们存在固有局限性,且这种固有局限性直接限制了大语言模型在合法情况下的可用性输出。特别是,显式拒绝策略检测到有害输入时直接返回拒绝短语,如“无法回答”,通常遵循僵硬且易于识别的模式,使其容易被对抗性利用而绕过。

2、现有的大语言模型在安全方面的敏感问题上实现的可用性增强方法主要分为两类:

3、(1)基于提示的对抗性攻击,即通过操纵输入文本诱导大语言模型响应的不对齐,例如文献1:本文档来自技高网...

【技术保护点】

1.一种基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,定义一组指示生成内容过滤的拒绝词汇集合和一组指示鼓励肯定性响应的正向词汇集合,基于拒绝词汇集合或正向词汇集合对词元进行匹配来检测词元是否为拒绝词汇或正向词汇。

3.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,基于梯度分析模型各层的隐藏状态,筛选具有显著梯度贡献的最后一层隐藏状态作为修改目标,包括:

4.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法...

【技术特征摘要】

1.一种基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,定义一组指示生成内容过滤的拒绝词汇集合和一组指示鼓励肯定性响应的正向词汇集合,基于拒绝词汇集合或正向词汇集合对词元进行匹配来检测词元是否为拒绝词汇或正向词汇。

3.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,基于梯度分析模型各层的隐藏状态,筛选具有显著梯度贡献的最后一层隐藏状态作为修改目标,包括:

4.根据权利要求1所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,对修改目标进行隐藏状态插值,包括:

5.根据权利要求4所述的基于隐藏状态插值的大语言模型可用性增强方法,其特征在于,其中控制混合比例根据尝试次数自适应确定:...

【专利技术属性】
技术研发人员:韩蒙邢文鹏赵懿然林昶廷胡春强乔通张光欣
申请(专利权)人:杭州君同未来科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1