【技术实现步骤摘要】
一种银行业大语言模型训练方法
[0001]本专利技术涉及银行语言模型训练领域,尤其涉及一种银行业大语言模型训练方法
。
技术介绍
[0002]自从
2022
年
11
月
OpenAI
公司发布了
ChatGPT
以来,这一强大的语言模型在全球范围内引起了巨大的轰动
。
其惊人的效果和广泛的应用领域彻底改变了人们对大模型潜力的认识,引爆了各行业对人工智能的期待
。
大模型是指在自然语言处理和机器学习领域中使用的具有庞大参数量和复杂结构的深度学习模型
。
这些模型被设计用于处理大规模的文本数据,并且能够自动学习和理解语言的语义
、
语法和上下文关系
。
[0003]现有的大语言模型,不管是商业公司训练的还是学术机构开源的,大都基于通用语料进行训练,对银行业务知识理解能力非常一般,且不能支持银行客服
、
知识库问答等场景,不能满足银行业务需求
。
技术实现思路
[0004]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种银行业大语言模型训练方法
。
[0005]根据本专利技术的一个方面,提供了一种银行业大语言模型训练方法,所述训练方法包括:
[0006]步骤
S1
:构建模型训练数据集;
[0007]步骤
S2
:基于银行词表训练模型分 ...
【技术保护点】
【技术特征摘要】
1.
一种银行业大语言模型训练方法,其特征在于,所述训练方法包括:步骤
S1
:构建模型训练数据集;步骤
S2
:基于银行词表训练模型分词器;步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座;步骤
S4
:使用提示工程进行指令微调;步骤
S5
:强化学习微调大模型
。2.
根据权利要求1所述的一种银行业大语言模型训练方法,其特征在于,所述步骤
S1
:构建模型训练数据集具体包括:预训练数据集,对于数据使用基于启发式规则和质量模型打分,对数据集进行篇章和句子粒度的过滤;在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重;指令微调数据集
。3.
根据权利要求1所述的一种银行业大语言模型训练方法,其特征在于,所述步骤
S2
:基于银行词表训练模型分词器具体包括:基于知识库整理行内专用词典,词典包括银行业的行业术语词汇
、
理财产品名称
、
以及特有数字词汇,专用词典共有
4300
个词汇;在使用
sentencepiece
训练分词器时加载专用词表以保证文本里的专用词汇不被分开,训练数据为
1.1
小结构造的预训练无监督文本数据,训练设置
vocba_size
为
25k
;将训练完的
tokenizer
与原始
llama tokenizer
合并,通过组合词汇表,获得一个合并的
tokenizer。4.
根据权利要求1所述的一种银行业大语言模型训练方法,其特征在于,所述步骤
S3
:基于
llama
预训练模型增量训练,构建大模型底座具体包括:
Llama 13b
模型重训练;<...
【专利技术属性】
技术研发人员:杨雷,
申请(专利权)人:北银金融科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。