一种模型训练方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:40835279 阅读:21 留言:0更新日期:2024-04-01 14:59
本发明专利技术实施例提供了一种模型训练方法、装置、电子设备以及存储介质,涉及大模型技术领域。具体实现方案为:获取训练数据集;利用待训练的大语言模型中的词嵌入层,对各条训练语料进行编码得到每一训练语料对应的编码矩阵;针对每一训练语料的编码矩阵,利用预测网络按照预设时间步预测该训练语料的对应的训练样本的、关于各个预定类别的初始概率分布,基于初始概率分布中概率最大的类别,执行第一处理方式或第二处理方式,得到预测结果;基于每一训练样本对应的预测结果以及所具有的指定标签,计算模型损失值;基于模型损失值调整大语言模型的参数。可见,通过本方案,可以在满足大语言模型的词向量表达需求的基础上,兼顾模型的训练效率。

【技术实现步骤摘要】

本专利技术涉及大模型,特别是涉及一种模型训练方法、装置、电子设备以及存储介质


技术介绍

1、当前的大语言模型大多建立在分词、word2vec(单词转向量)、transformer(一种采用自注意力机制的深度学习模型)的框架之上,来动态地学习输入文本的上下文表示。由于针对大语言模型进行训练所需的语料库巨大,常规的分词算法和word2vec编码通常会面临未登录词的问题,即模型无法生成未登录词的词向量,导致模型的表达能力受限。

2、相关技术中,采用将词拆成子词或更小粒度字符进行编码的方式来提高模型的表达能力,但是,由于将词拆成子词或更小粒度的字符后会产生大规模词表,从而引发词向量规模庞大的问题,导致模型的训练效率低下。

3、因此,如何在满足大语言模型的词向量表达需求的基础上,兼顾模型的训练效率成为亟需解决的技术问题。


技术实现思路

1、本专利技术实施例的目的在于提供一种模型训练方法、装置、电子设备以及存储介质,以在满足大语言模型的词向量表达需求的基础上,兼顾模型的训练效率。具体技术方案如下本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第二处理方式包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述初始概率分布中概率最大的类别,执行第一处理方式或第二处理方式,得到该训练样本的预测结果,包括:

4.根据权利要求1或2所述的方法,其特征在于,各个预定向量查找表为:针对所述编码位数中的每一位进行设置的一向量查找表,所述向量查找表中包括与所述进制数相同的行数;

5.根据权利要求1或2所述的方法,其特征在于,所述预设字典的构建方式包括:

6.根据权利要求5所述的...

【技术特征摘要】

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第二处理方式包括:

3.根据权利要求1或2所述的方法,其特征在于,所述基于所述初始概率分布中概率最大的类别,执行第一处理方式或第二处理方式,得到该训练样本的预测结果,包括:

4.根据权利要求1或2所述的方法,其特征在于,各个预定向量查找表为:针对所述编码位数中的每一位进行设置的一向量查找表,所述向量查找表中包括与所述进制数相同的行数;

5.根据权利要求1或2所述的方法,其特征在于,所述预设字典的构建方式包括:

6.根据权利要求5所述的方法,其特征在于,所述第二字符...

【专利技术属性】
技术研发人员:李剑戈蒋卓曹震马金龙殷宪晨
申请(专利权)人:中信建投证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1