一种数据增强与预测增强方法协同的数学大语言模型微调方法、系统、设备及介质技术方案

技术编号：41302481 阅读：2 留言：0更新日期：2024-05-13 14:49

本发明专利技术提供一种数据增强与预测增强方法协同的数学大语言模型微调方法、系统、设备及介质，其特征在于，包括：获取原问题、原答案，通过问题重写和答案细化的方式补充有效的训练样例，获取增广问题和增广答案；基于所述增广问题和增广答案，进行数据集简化计算，获取简化计算数据集；基于所述简化计算数据集，进行预测输出的增强。LLM的性能有较大弊端，没有解题过程，直接给出结果的问答对难以提高推理能力，而受污染或本身就有错的答案标签甚至会降低微调后LLM的正确率，同时仅限简单问题的数据在复杂多步推理的任务中也很少有帮助。针对上述问题，本发明专利技术使用合理增广的优质数学推理数据集和针对高精度与复杂运算的简化计算数据集进行训练，对LLM的预测输出进行多次采样和多轮对话后再进行反向传播，最终提高微调后通用大语言模型正确求解算术计算问题的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习，自然语言处理，大语言模型，数据增强，尤其涉及数据增强与预测增强方法协同的数学大语言模型微调方法。

技术介绍

1、预训练的大语言模型(llm)在语言理解能力、信息检索能力和内容生成能力上都获得了极大的成功，但在逻辑推理方面，特别是对于仅有一个正确答案的算术计算问题，与人类水平仍有一定的差距。这不仅是因为数学领域训练语料的相对匮乏，还来源于llm灵活的生成能力可能导致语义相似但事实错误的推理路径。现在通用的大语言模型都结合已学习的知识和输入的上文逐字预测下文出现的概率，这一生成方式有助于结果的多样性、连贯性和合理性，防止陷入局部最优，但在复杂多步定量推理的任务中“幻觉现象”和“逆转诅咒”较为明显，发散的推理路径也无法保证得到一致且正确的答案。这些问题使用户在借助llm进行逻辑推理和算术计算时，对过程与答案的正确性存在担忧。目前较为通用的解决方案是收集足够的数学相关文本对预训练的大语言模型进行微调，以期在不影响其通用性能的同时针对性学习解决数学问题的思路。思维链(cot)技术作为提示llm进行正确推理的鲁棒方法也得到了广泛的应用。

2、增加数学相关训练语料对llm进行微调的重点在于数据的收集和整理，问题与答案的质量和通用性都在很大程度上影响微调后llm的性能。没有解题过程，直接给出结果的问答对难以为提高推理能力的最终目的做出贡献，而受污染或本身就有错的答案标签甚至会降低微调后llm的正确率，仅限简单问题的数据在复杂多步推理的任务中也很少有帮助。因此，如何获得足量的高效微调数据集是提高llm数学推理能

技术实现思路

1、针对上述问题，本专利技术提出了一种数据增强与预测增强方法协同的大语言模型微调方法。本专利技术使用合理增广的优质数学推理数据集和针对高精度与复杂运算的简化计算数据集进行训练，对llm的预测输出进行多次采样和多轮对话后再进行反向传播，最终提高微调后通用大语言模型正确求解算术计算问题的能力。

2、本专利技术提供一种数据增强与预测增强方法协同的数学大语言模型微调方法，具体包括：

3、s1：获取原问题、原答案，通过问题重写和答案细化的方式补充有效的训练样例，获取增广问题和增广答案；

4、优选的，主要利用优质数学推理数据集中的高质量问答对生成大量更具多样性且答案正确的增广问题，以在进行充分训练的同时不影响大语言模型本身的良好性能。其中问题重写，包括对原问题采用自提问、自提示、自检验的方式进行增强，生成更具多样性且答案正确的增广问题；其中答案细化，主要通过对原答案使用先进高效的大语言模型生成新的推理路径进行增强，并筛选与原答案最终结果一致的部分组成增广答案。

5、s2：基于增广问题和增广答案，进行数据集进行简化计算，获取简化计算数据集；

6、优选的，该模块旨在于为了提高大语言模型处理大数字和复杂运算的能力，在不借助外部计算器的情况下得到正确的答案。通过编写python程序随机生成各种精度和混合运算的数学表达式，筛选能计算出最终结果的部分，然后根据高精度算法和运算符优先级逐步计算得到完整的计算流程与最终结果，数学表达式、完整的计算流程与最终结果的组合就构成了简化计算数据集。

7、s3：基于简化计算数据集，对其预测输出进行增强。

8、优选的，通过一种多次采样、多轮对话的自适应验证预测增强方法，使用提示引导和集成学习的策略缓解大语言模型在推理过程中的随机性和幻觉问题。在微调过程中对同一个输入采样多个预测输出，经多数投票得到集成的结果，作为提示与原来的输入拼接后再通过大语言模型采样多个输出，迭代多轮后确定最终的输出再计算损失并反向传播、更新梯度。

9、基于上述提出的数据增强与预测增强方法协同的数学大语言模型微调方法，为了更好地实现本专利技术，进一步地提出一种数据增强与预测增强方法协同的数学大语言模型微调系统，包括：数据增强模块、计算数据简化模块、预测方法增强模块；

10、所述数据增强模块主要作用是，利用优质数学推理数据集中的高质量问答对生成大量更具多样性且答案正确的增广问题，以在进行充分训练的同时不影响大语言模型本身的良好性能；

11、所述数据增强模块包括问题增强模块和答案增强模块；

12、所述计算数据简化模块主要作用是，为了提高大语言模型处理大数字和复杂运算的能力，在不借助外部计算器的情况下得到正确的答案；

13、所述预测方法增强模块主要作用是，对预测输出的增强，采用多次采样、多轮对话的自适应验证。

14、基于上述提出的数据增强与预测增强方法协同的数学大语言模型微调方法，为了更好地实现本专利技术，进一步地提出一种电子设备，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现上述的数据增强与预测增强方法协同的数学大语言模型微调方法。

15、基于上述提出的数据增强与预测增强方法协同的数学大语言模型微调方法，为了更好地实现本专利技术，进一步地提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在上述的电子设备上执行时，实现上述的数据增强与预测增强方法协同的数学大语言模型微调方法。

16、本专利技术的有益效果：

17、1.本专利技术提出一种数据增强与预测增强方法协同的数学大语言模型微调方法，这种微调方式为增强大语言模型的算术计算能力提供了高质量且多样化的训练问答对，详细的推理路径也有助于指示大模型进行逐步推理，从先前的分析中选择正确的答案。

18、2.本专利技术提供的方法针对要求高精度与混合运算的困难问题，专门融入了高精度算法和按运算符优先级逐步计算的答案增强策略，使大语言模型在保持文字推理能力的同时也能学习到数字和运算符号推理的能力。

19、3.本专利技术提供的方法采用集成学习和基于历史的生成策略，修正大语言模型在预测输出结果时的不确定性和推理路径错误。多次采样预测输出然后进行多数投票，使最终结果具有更高的鲁棒性并减轻随机性的影响；多轮对话利用先前的历史记录作为提示，推动大语言模型形成更加细致可靠的推理路径，即使历史记录中存在错误，大语言模型也能学习到其中正确的部分。这种策略同样可以在无标签的测试阶段提高预测性能。

本文档来自技高网...

【技术保护点】

1.一种数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，包括：

2.根据权利要求1所述的数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，所述问题重写，包括通过对原问题采用自提问、自提示、自检验的方式进行增强，生成更具多样性且答案正确的增广问题。

3.根据权利要求1所述的数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，所述答案细化，包括通过对原答案使用先进高效的大语言模型生成新的推理路径进行增强，并筛选与原答案最终结果一致的部分组成增广答案。

4.根据权利要求1所述的数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，编写Python程序随机生成各种精度和混合运算的数学表达式，通过所述Python程序进行筛选，得到能计算出最终结果的部分。

5.根据权利要求1或4所述的数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，根据高精度算法和运算符优先级逐步计算所述能计算出最终结果的部分，得到数学表达式、完整的计算流程、最终结果；

6.根据权利要求1所述的数据

7.根据权利要求6所述的数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，对同一个输入采样多个预测输出，经多数投票得到集成的结果，将所述集成的结果作为提示与原来所述的输入拼接后，通过所述大语言模型采样多个输出，迭代多轮后确定最终的输出再计算损失并反向传播、更新梯度。

8.一种数据增强与预测增强方法协同的数学大语言模型微调系统，其特征在于，包括：数据增强模块、计算数据简化模块、预测方法增强模块；

9.一种电子设备，其特征在于，包括存储器和处理器；所述存储器上存储有计算机程序；当所述计算机程序在所述处理器上执行时，实现如权利要求1-7任一项所述的数据增强与预测增强方法协同的数学大语言模型微调方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令；当所述计算机指令在如权利要求9所述的电子设备上执行时，实现如权利要求1-7任一项所述的数据增强与预测增强方法协同的数学大语言模型微调方法。

...

【技术特征摘要】

1.一种数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，包括：

4.根据权利要求1所述的数据增强与预测增强方法协同的数学大语言模型微调方法，其特征在于，编写python程序随机生成各种精度和混合运算的数学表达式，通过所述python程序进行筛选，得到能计算出最终结果的部分。

6.根据权利要求1所述的数据增强与预测增强方...

【专利技术属性】
技术研发人员：蔡华，戴蕴炜，赵爽，李帅帅，史可欢，徐清，
申请(专利权)人：华院计算技术上海股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人