System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种能提升数值处理能力的中文金融大语言模型构建方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种能提升数值处理能力的中文金融大语言模型构建方法技术

技术编号:41336562 阅读:13 留言:0更新日期:2024-05-20 09:55
本发明专利技术公开一种能提升数值处理能力的中文金融大语言模型构建方法,包括金融语料数据集构建阶段,基于低秩适配的增量预训练阶段,基于低秩适配的对数值敏感的选项微调阶段,低秩适配模块的混合与合并阶段,以及利用训练后的中文金融大语言模型进行推理阶段;提高了模型在中文金融问答任务上进行推理时的预测准确率,提高了在包含数值变量的问题上的准确率,也提高了在不包含数值变量的问题上的准确率。

【技术实现步骤摘要】

本专利技术涉及一种能提升数值处理能力的中文金融大语言模型构建方法,属于计算机,可涉及人工智能、自然语言处理及机器学习等领域,特别适用于自然语言处理领域的中文金融问答任务。


技术介绍

1、在人工智能领域,大语言模型是一种基于深度学习技术的自然语言处理模型,它可以生成自然语言文本。大语言模型拥有庞大的参数量,通过基于海量语料库的训练,在学习复杂语言模式方面展现了强大能力。大语言模型在自然语言理解和生成任务中也表现出了强大的性能。金融大语言模型是在金融语料上,通过预训练或基于开源大语言模型的微调得到的。由于金融文本常常包含数值变量,因此金融大语言模型处理包含数值变量的金融文本的能力至关重要。

2、目前现有的金融大语言模型构建方法,主要是以自回归方式使用预测下一个标记的目标函数对模型进行训练的,这类构建方法得到的大语言模型在预测数值变量时仅能够利用上文信息,这样不能完全学习数值变量的上下文依赖性,而后者对于理解包含数值变量的金融文本很重要。还有一类金融大语言模型构建方法,通过自回归填空目标函数来学习上下文依赖关系,但它通过随机掩码来构建空白标记,所以对金融文本中的数值变量缺乏敏感性。这导致目前现有的金融大语言模型在处理包含数值变量的金融文本方面的能力欠佳。


技术实现思路

1、专利技术目的:目前现有的金融大语言模型在处理包含数值变量的金融文本的能力欠佳。针对以上问题,本专利技术提供了一种能提升数值处理能力的中文金融大语言模型构建方法,其通过金融语料数据集构建、基于低秩适配(low-rank adaptation,简称lora)的增量预训练、基于低秩适配的对数值敏感的选项微调、低秩适配模块的混合与合并,训练得到一个适用于中文金融问答任务的中文金融大语言模型,并利用训练后的中文金融大语言模型进行推理。该专利技术有效提高了中文金融大语言模型在中文金融问答任务上进行推理时的预测准确率,提高了在包含数值变量的问题上的准确率,也提高了在不包含数值变量的问题上的准确率。

2、技术方案:一种能提升数值处理能力的中文金融大语言模型构建方法,包括金融语料数据集构建阶段、基于低秩适配的增量预训练阶段、基于低秩适配的对数值敏感的选项微调阶段、低秩适配模块的混合与合并阶段、利用训练后的中文金融大语言模型进行推理阶段。

3、在金融语料数据集构建阶段,对原始金融文本进行过滤、提纯、数值校准,得到金融语料数据集;在基于低秩适配的增量预训练阶段,使用金融语料数据集对基础大语言模型进行基于低秩适配的增量预训练;在基于低秩适配的对数值敏感的选项微调阶段,基于金融语料数据集,进行对数值敏感的实例抽取,然后进行基于数值掩码的选项生成,然后构造对数值敏感的选项微调的指令微调数据集,对基础大语言模型进行基于低秩适配的指令微调;在低秩适配模块的混合与合并阶段,针对增量预训练阶段和对数值敏感的选项微调阶段得到的低秩适配模块,计算其分别对应的累积梯度更新矩阵,再进行基于奇异值分解的混合,然后把混合后的低秩适配模块合并到基础大语言模型中,得到最终的中文金融大语言模型;在利用训练后的中文金融大语言模型进行推理阶段,使用训练后的中文金融大语言模型进行生成,输入中文金融问答任务的问题文本,训练后的中文金融大语言模型会输出答案文本。

4、所述金融语料数据集构建阶段的具体过程为:从网络上爬取或下载金融教材的原始金融文本;对原始金融文本进行过滤操作,去除原始金融文本中的非金融领域内容,如出版信息和参考文献列表;对所得文本进行提纯操作,去除不包含金融知识的内容,例如目录和某些章节标题;对所得文本进行数值校准操作,解决文本中与数字相关的格式问题,例如去除数字变量中的间距和段落分隔符,得到金融语料数据集。

5、所述基于低秩适配的增量预训练阶段具体过程为:采用中文通用大语言模型作为基础大语言模型;采用标准语言模型的目标函数作为目标函数,采用预测下一个标记作为学习任务;使用金融语料数据集对基础大语言模型进行基于低秩适配的增量预训练,得到一个低秩适配模块。

6、所述基于低秩适配的对数值敏感的选项微调阶段的具体过程为:基于金融语料数据集,进行对数值敏感的实例抽取,其中每个实例都是一段文本;随机选择一部分实例;针对所选择的每个实例,对于实例中包含的数值变量,随机选择其中一部分数值变量;进行基于数值掩码的选项生成,针对所选择的每个数值变量,按照数值变量所属的数值类型,在对应区间内随机生成一组随机数字;针对所选择的每个数值变量,都把数值变量的数值和生成的一组随机数字,分别赋值给一组选项;构造对数值敏感的选项微调的指令微调数据集,针对所选择的每个数值变量,都通过把所述数值变量所在的实例中的所述数值变量替换为长度为四个标记的下划线,构造出问题;针对所选择的每个数值变量,把问题、一组选项标识符、对应的一组选项和必要的提示词组成部分,相拼接,构造出对应的指令输出对;由所选择的所有实例中的所选择的所有数值变量所生成的所有指令输出对,构造出了对数值敏感的选项微调的指令微调数据集;采用中文通用大语言模型作为基础大语言模型,基于所构造的指令微调数据集,对基础大语言模型进行基于低秩适配的指令微调,得到一个低秩适配模块。

7、针对基于低秩适配的增量预训练阶段和基于低秩适配的对数值敏感的选项微调阶段所得到的低秩适配模块,计算其分别对应的累积梯度更新矩阵,再计算两个累积梯度更新矩阵的平均数矩阵,对于这个平均数矩阵进行奇异值分解,最终得到混合后的低秩适配模块。把混合后的低秩适配模块,通过加和操作合并到基础大语言模型中。

8、所述低秩适配模块的混合与合并阶段的具体过程为:针对增量预训练阶段得到的低秩适配模块,计算其对应的累积梯度更新矩阵;针对对数值敏感的选项微调阶段得到的低秩适配模块,计算其对应的累积梯度更新矩阵;对于计算所得到的两个累积梯度更新矩阵,取其平均数,得到新的平均数矩阵;再对于平均数矩阵进行奇异值分解,对于奇异值分解得到的对角矩阵,提取对角矩阵中的前若干个奇异值和对应的奇异向量;把提取出的奇异值和奇异向量依次相乘得到混合后的低秩适配模块对应的累积梯度更新矩阵;把混合后的低秩适配模块通过加和操作合并到基础大语言模型中,得到最终的中文金融大语言模型(具体来说,是把基础大语言模型的原参数矩阵,与混合后的低秩适配模块对应的累积梯度更新矩阵相加和,把加和得到的新矩阵作为新的中文金融大语言模型的参数矩阵)。

9、所述利用训练后的中文金融大语言模型进行推理阶段的具体过程为:使用训练后的中文金融大语言模型进行生成;输入中文金融问答任务的问题文本;训练后的中文金融大语言模型会输出答案文本。

10、一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的能提升数值处理能力的中文金融大语言模型构建方法。

11、一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的能提升数值处理能力的中文金融大语言模型构建方法的计算机程序。

12本文档来自技高网...

【技术保护点】

1.一种能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,包括:金融语料数据集构建阶段,基于低秩适配的增量预训练阶段,基于低秩适配的对数值敏感的选项微调阶段,低秩适配模块的混合与合并阶段,以及利用训练后的中文金融大语言模型进行推理阶段;

2.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述金融语料数据集构建阶段具体为:获取原始金融文本;对原始金融文本进行过滤操作,去除原始金融文本中的非金融领域内容;对所得文本进行提纯操作,去除不包含金融知识的内容;对所得文本进行数值校准操作,解决文本中与数字相关的格式问题,得到金融语料数据集。

3.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述基于低秩适配的增量预训练阶段具体过程为:采用中文通用大语言模型作为基础大语言模型;采用标准语言模型的目标函数作为目标函数,采用预测下一个标记作为学习任务;使用金融语料数据集对基础大语言模型进行基于低秩适配的增量预训练,得到一个低秩适配模块。

4.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述基于低秩适配的对数值敏感的选项微调阶段的具体过程为:基于金融语料数据集,进行对数值敏感的实例抽取;进行基于数值掩码的选项生成,针对所选择的每个数值变量,按照数值变量所属的数值类型,在对应区间内随机生成一组随机数字;针对所选择的每个数值变量,都把数值变量的数值和生成的一组随机数字,分别赋值给一组选项;构造对数值敏感的选项微调的指令微调数据集,针对所选择的每个数值变量,都通过把所述数值变量所在的实例中的所述数值变量替换为长度为四个标记的下划线,构造出问题;针对所选择的每个数值变量,把问题、一组选项标识符、对应的一组选项和必要的提示词组成部分,相拼接,构造出对应的指令输出对;由所选择的所有实例中的所选择的所有数值变量所生成的所有指令输出对,构造出了对数值敏感的选项微调的指令微调数据集;采用中文通用大语言模型作为基础大语言模型,基于所构造的指令微调数据集,对基础大语言模型进行基于低秩适配的指令微调,得到一个低秩适配模块。

5.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述低秩适配模块的混合与合并阶段的具体过程为:针对增量预训练阶段得到的低秩适配模块,计算其对应的累积梯度更新矩阵;针对对数值敏感的选项微调阶段得到的低秩适配模块,计算其对应的累积梯度更新矩阵;对于计算所得到的两个累积梯度更新矩阵,取其平均数,得到新的平均数矩阵;再对于平均数矩阵进行奇异值分解,对于奇异值分解得到的对角矩阵,提取对角矩阵中的前若干个奇异值和对应的奇异向量;把提取出的奇异值和奇异向量依次相乘得到混合后的低秩适配模块对应的累积梯度更新矩阵;把混合后的低秩适配模块通过加和操作合并到基础大语言模型中,得到最终的中文金融大语言模型。

6.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述利用训练后的中文金融大语言模型进行推理阶段的具体过程为:使用训练后的中文金融大语言模型进行生成;输入中文金融问答任务的问题文本;训练后的中文金融大语言模型会输出答案文本。

7.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-6中任一项所述的能提升数值处理能力的中文金融大语言模型构建方法。

8.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-6中任一项所述的能提升数值处理能力的中文金融大语言模型构建方法的计算机程序。

...

【技术特征摘要】

1.一种能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,包括:金融语料数据集构建阶段,基于低秩适配的增量预训练阶段,基于低秩适配的对数值敏感的选项微调阶段,低秩适配模块的混合与合并阶段,以及利用训练后的中文金融大语言模型进行推理阶段;

2.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述金融语料数据集构建阶段具体为:获取原始金融文本;对原始金融文本进行过滤操作,去除原始金融文本中的非金融领域内容;对所得文本进行提纯操作,去除不包含金融知识的内容;对所得文本进行数值校准操作,解决文本中与数字相关的格式问题,得到金融语料数据集。

3.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述基于低秩适配的增量预训练阶段具体过程为:采用中文通用大语言模型作为基础大语言模型;采用标准语言模型的目标函数作为目标函数,采用预测下一个标记作为学习任务;使用金融语料数据集对基础大语言模型进行基于低秩适配的增量预训练,得到一个低秩适配模块。

4.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述基于低秩适配的对数值敏感的选项微调阶段的具体过程为:基于金融语料数据集,进行对数值敏感的实例抽取;进行基于数值掩码的选项生成,针对所选择的每个数值变量,按照数值变量所属的数值类型,在对应区间内随机生成一组随机数字;针对所选择的每个数值变量,都把数值变量的数值和生成的一组随机数字,分别赋值给一组选项;构造对数值敏感的选项微调的指令微调数据集,针对所选择的每个数值变量,都通过把所述数值变量所在的实例中的所述数值变量替换为长度为四个标记的下划线,构造出问题;针对所选择的每个数值变量,把问题、一组选项标识符、对应的一组选项和必要的提示词组成部分,相拼接,构...

【专利技术属性】
技术研发人员:李武军苏桓毅吴轲黄玉豪
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1