一种银行业大语言模型训练方法技术

技术编号:39725635 阅读:10 留言:0更新日期:2023-12-17 23:30
本发明专利技术提供的一种银行业大语言模型训练方法,所述训练方法包括:步骤

【技术实现步骤摘要】
一种银行业大语言模型训练方法


[0001]本专利技术涉及银行语言模型训练领域,尤其涉及一种银行业大语言模型训练方法


技术介绍

[0002]自从
2022

11

OpenAI
公司发布了
ChatGPT
以来,这一强大的语言模型在全球范围内引起了巨大的轰动

其惊人的效果和广泛的应用领域彻底改变了人们对大模型潜力的认识,引爆了各行业对人工智能的期待

大模型是指在自然语言处理和机器学习领域中使用的具有庞大参数量和复杂结构的深度学习模型

这些模型被设计用于处理大规模的文本数据,并且能够自动学习和理解语言的语义

语法和上下文关系

[0003]现有的大语言模型,不管是商业公司训练的还是学术机构开源的,大都基于通用语料进行训练,对银行业务知识理解能力非常一般,且不能支持银行客服

知识库问答等场景,不能满足银行业务需求


技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种银行业大语言模型训练方法

[0005]根据本专利技术的一个方面,提供了一种银行业大语言模型训练方法,所述训练方法包括:
[0006]步骤
S1
:构建模型训练数据集;
[0007]步骤
S2
:基于银行词表训练模型分词器;
[0008]步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座;
[0009]步骤
S4
:使用提示工程进行指令微调;
[0010]步骤
S5
:强化学习微调大模型

[0011]可选的,所述步骤
S1
:构建模型训练数据集具体包括:
[0012]预训练数据集,对于数据使用基于启发式规则和质量模型打分,对数据集进行篇章和句子粒度的过滤;在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重;
[0013]指令微调数据集

[0014]可选的,所述步骤
S2
:基于银行词表训练模型分词器具体包括:
[0015]基于知识库整理行内专用词典,词典包括银行业的行业术语词汇

理财产品名称

以及特有数字词汇,专用词典共有
4300
个词汇;
[0016]在使用
sentencepiece
训练分词器时加载专用词表以保证文本里的专用词汇不被分开,训练数据为
1.1
小结构造的预训练无监督文本数据,训练设置
vocba_size

25k

[0017]将训练完的
tokenizer
与原始
llama tokenizer
合并,通过组合词汇表,获得一个合并的
tokenizer。
[0018]可选的,所述步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座具体包括:
[0019]Llama 13b
模型重训练;
[0020]Llama
的模型架构使用的是
Transformer Decoder
结构

[0021]可选的,所述步骤
S4
:使用提示工程进行指令微调具体包括:使用
LoRA
的方式进行模型微调

[0022]可选的,所述步骤
S5
:强化学习微调大模型具体包括:
[0023]多种策略产生样本并收集人类反馈,形成强化学习数据集
[0024]基于
Bloom

7b
模型训练奖励模型
[0025]一个奖励模型
(Reward Model,RM)
的目标是刻画模型的输出是否在人类看来表现不错;
[0026]输入
[
提示
(prompt)
,模型生成的文本
],输出一个刻画文本质量的标量数字;
[0027]用公式表示如下:
[0028][0029]其中,
x,y
分别表示
POST

SUMMARY

r
θ
表示参数为
θ
的奖励模型的值,
σ
表示
sig mod
函数;
[0030]奖励模型接收一系列文本并返回一个标量奖励,数值上对应人的偏好;
[0031]通过训练好的奖励模型预测结果且通过
PPO
算法优化模型策略,微调大模型

[0032]本专利技术提供的一种银行业大语言模型训练方法,所述训练方法包括:步骤
S1
:构建模型训练数据集;步骤
S2
:基于银行词表训练模型分词器;步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座;步骤
S4
:使用提示工程进行指令微调;步骤
S5
:强化学习微调大模型

基于具体银行的业务

知识

数据去训练大语言模型

能够理解银行频繁使用的金额

理财产品名称

办理流程等专业词汇;使用客服对话数据及银行内部知识库做指令训练,使得模型具备客服问答

检索式知识问答等能力;面对不断发展的业务具备快速迭代能力

[0033]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的

特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式

附图说明
[0034]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图

[0035]图1为本专利技术实施例提供的强化学习流程示意图;
[0036]图2为本专利技术实施例提供的
self

instruct
架构示意图;
[0037]图3为本专利技术实施例提供的原始
llama tokenizer
和经过中文训练的
tokenizer
分词效果对比图;
[0038]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种银行业大语言模型训练方法,其特征在于,所述训练方法包括:步骤
S1
:构建模型训练数据集;步骤
S2
:基于银行词表训练模型分词器;步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座;步骤
S4
:使用提示工程进行指令微调;步骤
S5
:强化学习微调大模型
。2.
根据权利要求1所述的一种银行业大语言模型训练方法,其特征在于,所述步骤
S1
:构建模型训练数据集具体包括:预训练数据集,对于数据使用基于启发式规则和质量模型打分,对数据集进行篇章和句子粒度的过滤;在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重;指令微调数据集
。3.
根据权利要求1所述的一种银行业大语言模型训练方法,其特征在于,所述步骤
S2
:基于银行词表训练模型分词器具体包括:基于知识库整理行内专用词典,词典包括银行业的行业术语词汇

理财产品名称

以及特有数字词汇,专用词典共有
4300
个词汇;在使用
sentencepiece
训练分词器时加载专用词表以保证文本里的专用词汇不被分开,训练数据为
1.1
小结构造的预训练无监督文本数据,训练设置
vocba_size

25k
;将训练完的
tokenizer
与原始
llama tokenizer
合并,通过组合词汇表,获得一个合并的
tokenizer。4.
根据权利要求1所述的一种银行业大语言模型训练方法,其特征在于,所述步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座具体包括:
Llama 13b
模型重训练;<...

【专利技术属性】
技术研发人员:杨雷
申请(专利权)人:北银金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1