模型训练方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号：45702909 阅读：7 留言：0更新日期：2025-07-04 18:17

本申请实施例公开了一种模型训练方法、装置、设备、存储介质及程序产品，该方法包括：根据第一输入数据，通过第一语言模型，确定多种第一推理结果；按照预设判别规则，在多种第一推理结果中确定合理推理结果；基于合理推理结果，训练第一语言模型，以得到第二语言模型；根据第二输入数据，通过第二语言模型，确定多种第二推理结果；确定多种第二推理结果各自对应的评价结果；根据多种第二推理结果各自对应的评价结果，在多种第二推理结果中确定参考推理结果；基于参考推理结果，训练第二语言模型，以得到目标语言模型。该方法使用以低成本获取到的大量训练数据训练LLM，降低了模型训练成本，并提升了所训练的LLM的推理能力。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能(artificial intelligence，ai)，尤其涉及一种模型训练方法、装置、设备、存储介质及程序产品。

技术介绍

1、大语言模型(large language model，llm)是一种基于深度学习技术的人工智能模型，其专用于理解和生成人类语言，能够完成对话、问答、翻译、写作等多种任务，是人工智能领域的核心技术之一。

2、近年来，随着llm和深度学习技术的迅速发展，如何更高效、更智能地训练llm，成为了业界的热点研究问题。传统的模型训练方法(如监督学习(supervised learning))需要依赖大量人工标注的训练数据训练llm，训练数据的获取成本高，并且在很多情况下难以获取到充足的训练数据，导致所训练的llm的推理能力受到限制。

技术实现思路

1、本申请实施例提供了一种模型训练方法、装置、设备、存储介质及程序产品，能够使用以低成本获取到的大量训练数据训练llm，从而降低模型训练成本，并提升所训练的llm的推理能力。

2、本申请...

【技术保护点】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设判别规则，在所述多种第一推理结果中确定合理推理结果，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述第一推理路径中包括至少一个第一推理步骤；所述基于所述合理推理结果，训练所述第一语言模型，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述确定所述多种第二推理结果各自对应的评价结果，包括：

5.根据权利要求4所述的方法，其特征在于，初始的所述评价模型通过以下方式训练：

6.根据权利要求1至5任一项所述的方...

【技术特征摘要】

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述按照预设判别规则，在所述多种第一推理结果中确定合理推理结果，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述确定所述多种第二推理结果各自对应的评价结果，包括：

5.根据权利要求4所述的方法，其特征在于，初始的所述评价模型通过以下方式训练：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述多种第二推理结果各自对应的评价结果，在所述多种第二推理结果中确定参考推理结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述参考推理结果，训练所述第二语言模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述评价结果为通过评价模型针对所述第二推理结果确定的评价得分；所述以最大化所述优质生成概率、且最小化所述劣质生成概率为目标...

【专利技术属性】
技术研发人员：尹宇阳，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人