【技术实现步骤摘要】
本专利技术涉及自然语言处理,尤其是涉及一种基于图灵机思想的大语言模型长度泛化数据驱动方法和设备。
技术介绍
1、当前,大语言模型在长度泛化(即处理比训练时更长的输入序列)方面表现不佳,现有数据驱动方法多为任务特定设计,尚未实现更为普适且有效的泛化能力。
2、长度泛化,即能够处理不同长度,尤其是比训练时见过更长输入序列的问题,是人类智能的基本方面,也是ai系统的重要评价标准。虽然思维链(chain-of-thought,cot)技术显著提升了大语言模型解决复杂问题的能力,但大模型在长度泛化方面仍然表现不足,经常会从思维链中学习到“捷径”,最终导致推理错误。
3、现有的方法反转格式(reversed format)关注于加法问题、索引标记(indexhint)关注于符号运算问题,但只关注于特定的任务。以上两种方法都关注于特定的任务提供了特定的解决办法,尚未推广至更为通用且复杂的推理问题范围,且对于长度泛化的性能增益有限。
4、综上,现有技术存在如下问题:
5、(1)当前数据驱动方法针对特定任务
...【技术保护点】
1.一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,通过线性拓展将问题展开为包括多个线性有序步骤的思维链,消除潜在的捷径学习。
3.根据权利要求1所述的一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,通过将操作数检索、在推理步骤中产生的基本解决方案以及逻辑控制语句作为步骤的原子状态,降低推理难度并减少捷径学习。
4.根据权利要求1所述的一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,
...【技术特征摘要】
1.一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,通过线性拓展将问题展开为包括多个线性有序步骤的思维链,消除潜在的捷径学习。
3.根据权利要求1所述的一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,通过将操作数检索、在推理步骤中产生的基本解决方案以及逻辑控制语句作为步骤的原子状态,降低推理难度并减少捷径学习。
4.根据权利要求1所述的一种基于图灵机思想的大语言模型长度泛化数据驱动方法,其特征在于,通过在对每个步骤进行推理前,预先进行操作数检索获取当前步骤所涉及的操作数,将建立远距离注意力的行为与推理操作的实际执行分离,形成本地化的注意力模式。
5.一种基于图灵机思想的大语言模型长度泛化数据驱动系统,其特征在于,包括:
6.根据权利要求5所述的一种基于图灵机思想的大语言模型长度泛化数据驱动系统,其特征在于,所述的线性拓展模块通过线性拓展将问题展开为包括多个线性有序步骤...
【专利技术属性】
技术研发人员:张文蔚,华洲琦,吕成器,顾宇喆,高颂杨,刘奎坤,陈恺,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。