一种基于思维链的模型训练方法及设备技术

技术编号：41523786 阅读：14 留言：0更新日期：2024-06-03 22:57

本申请的目的是提供一种基于思维链的模型训练方法及设备，通过构造用于大语言模型生成思维链的思维链提醒、第一训练问题和第一训练答案；将所述思维链提醒、所述第一训练问题和所述第一训练答案输入至所述大语言模型进行思维链推理的训练，生成目标思维链；获取用于对待训练的小语言模型进行微调的第二训练问题及对应的第二训练答案；将所述第二训练问题作为输入，所述目标思维链和所述第二训练答案作为训练目标，输入至待训练的所述小语言模型进行推理能力的微调，得到微调后的小语言模型，实现基于以大语言模型所产生的目标思维链微调小语言模型，达到思维链知识蒸馏，规避思维链仅可提高大语言模型性能的现状。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及训练模型，尤其一种基于思维链的模型训练方法及设备。

技术介绍

1、在当今智能领域，ai(artificial intelligence，人工智能)大厂的开发人员和高校的nlp(natural language processing，自然语言处理)研究人员，都在琢磨，如何使让大模型(也指具有至少数十亿参数的模型)“涌现”，所谓“涌现”，在大模型领域指的是当模型突破某个规模时，性能显著提升，表现出让人惊艳、意想不到的能力，比如语言理解能力、生成能力、逻辑推理能力等。一般来说，模型在100亿(10b)到1000亿(100b)参数区间，可能产生能力涌现。强大的逻辑推理是大语言模型“智能涌现”出的核心能力之一，好像ai有了人的意识一样，而推理能力的关键，在于一个技术——思维链(chain of thought，cot)。

2、cot提示促进语言模型将推理任务细化成一系列的中间步骤，从而提高语言模型在常识推理、符号推理、数学推理方面的任务准确率，然而，cot提示对于更小的语言模型的推理能力并没有显著帮助，甚至会降低准确度。p>

本文档来自技高网...

【技术保护点】

1.一种基于思维链的模型训练方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述构造用于大语言模型生成思维链的思维链提醒，包括：

3.根据权利要求1所述的方法，其中，所述将所述思维链提醒、所述第一训练问题和所述第一训练答案输入至所述大语言模型进行思维链推理的训练，生成目标思维链，包括：

4.根据权利要求3所述的方法，其中，所述在进行思维链推理的训练时，将所述思维链提醒输入至所述大语言模型，生成目标思维链，包括：

5.根据权利要求1所述的方法，其中，所述将所述第二训练问题作为输入，所述目标思维链和所述第二训练答案作为训练目标，...

【技术特征摘要】

1.一种基于思维链的模型训练方法，其中，所述方法包括：

2.根据权利要求1所述的方法，其中，所述构造用于大语言模型生成思维链的思维链提醒，包括：

4.根据权利要求3所述的方法，其中，所述在进行思维链推理的训练时，将所述思维链提醒输入至所述大语言模型，生...

【专利技术属性】
技术研发人员：张炯，贾怡鸣，王沛弘，葛翔，贾雪丽，
申请(专利权)人：上海星图比特信息技术服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人