当前位置: 首页 > 专利查询>南京大学专利>正文

一种能提升数值处理能力的中文金融大语言模型构建方法技术

技术编号:41336562 阅读:20 留言:0更新日期:2024-05-20 09:55
本发明专利技术公开一种能提升数值处理能力的中文金融大语言模型构建方法,包括金融语料数据集构建阶段,基于低秩适配的增量预训练阶段,基于低秩适配的对数值敏感的选项微调阶段,低秩适配模块的混合与合并阶段,以及利用训练后的中文金融大语言模型进行推理阶段;提高了模型在中文金融问答任务上进行推理时的预测准确率,提高了在包含数值变量的问题上的准确率,也提高了在不包含数值变量的问题上的准确率。

【技术实现步骤摘要】

本专利技术涉及一种能提升数值处理能力的中文金融大语言模型构建方法,属于计算机,可涉及人工智能、自然语言处理及机器学习等领域,特别适用于自然语言处理领域的中文金融问答任务。


技术介绍

1、在人工智能领域,大语言模型是一种基于深度学习技术的自然语言处理模型,它可以生成自然语言文本。大语言模型拥有庞大的参数量,通过基于海量语料库的训练,在学习复杂语言模式方面展现了强大能力。大语言模型在自然语言理解和生成任务中也表现出了强大的性能。金融大语言模型是在金融语料上,通过预训练或基于开源大语言模型的微调得到的。由于金融文本常常包含数值变量,因此金融大语言模型处理包含数值变量的金融文本的能力至关重要。

2、目前现有的金融大语言模型构建方法,主要是以自回归方式使用预测下一个标记的目标函数对模型进行训练的,这类构建方法得到的大语言模型在预测数值变量时仅能够利用上文信息,这样不能完全学习数值变量的上下文依赖性,而后者对于理解包含数值变量的金融文本很重要。还有一类金融大语言模型构建方法,通过自回归填空目标函数来学习上下文依赖关系,但它通过随机掩码来构建空白标记,所以对本文档来自技高网...

【技术保护点】

1.一种能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,包括:金融语料数据集构建阶段,基于低秩适配的增量预训练阶段,基于低秩适配的对数值敏感的选项微调阶段,低秩适配模块的混合与合并阶段,以及利用训练后的中文金融大语言模型进行推理阶段;

2.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述金融语料数据集构建阶段具体为:获取原始金融文本;对原始金融文本进行过滤操作,去除原始金融文本中的非金融领域内容;对所得文本进行提纯操作,去除不包含金融知识的内容;对所得文本进行数值校准操作,解决文本中与数字相关的格式问题,得到金融语料数据集。...

【技术特征摘要】

1.一种能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,包括:金融语料数据集构建阶段,基于低秩适配的增量预训练阶段,基于低秩适配的对数值敏感的选项微调阶段,低秩适配模块的混合与合并阶段,以及利用训练后的中文金融大语言模型进行推理阶段;

2.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述金融语料数据集构建阶段具体为:获取原始金融文本;对原始金融文本进行过滤操作,去除原始金融文本中的非金融领域内容;对所得文本进行提纯操作,去除不包含金融知识的内容;对所得文本进行数值校准操作,解决文本中与数字相关的格式问题,得到金融语料数据集。

3.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述基于低秩适配的增量预训练阶段具体过程为:采用中文通用大语言模型作为基础大语言模型;采用标准语言模型的目标函数作为目标函数,采用预测下一个标记作为学习任务;使用金融语料数据集对基础大语言模型进行基于低秩适配的增量预训练,得到一个低秩适配模块。

4.根据权利要求1所述的能提升数值处理能力的中文金融大语言模型构建方法,其特征在于,所述基于低秩适配的对数值敏感的选项微调阶段的具体过程为:基于金融语料数据集,进行对数值敏感的实例抽取;进行基于数值掩码的选项生成,针对所选择的每个数值变量,按照数值变量所属的数值类型,在对应区间内随机生成一组随机数字;针对所选择的每个数值变量,都把数值变量的数值和生成的一组随机数字,分别赋值给一组选项;构造对数值敏感的选项微调的指令微调数据集,针对所选择的每个数值变量,都通过把所述数值变量所在的实例中的所述数值变量替换为长度为四个标记的下划线,构造出问题;针对所选择的每个数值变量,把问题、一组选项标识符、对应的一组选项和必要的提示词组成部分,相拼接,构...

【专利技术属性】
技术研发人员:李武军苏桓毅吴轲黄玉豪
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1