【技术实现步骤摘要】
本专利技术涉及大模型,特别是涉及一种模型训练方法、装置、电子设备以及存储介质。
技术介绍
1、当前的大语言模型大多建立在分词、word2vec(单词转向量)、transformer(一种采用自注意力机制的深度学习模型)的框架之上,来动态地学习输入文本的上下文表示。由于针对大语言模型进行训练所需的语料库巨大,常规的分词算法和word2vec编码通常会面临未登录词的问题,即模型无法生成未登录词的词向量,导致模型的表达能力受限。
2、相关技术中,采用将词拆成子词或更小粒度字符进行编码的方式来提高模型的表达能力,但是,由于将词拆成子词或更小粒度的字符后会产生大规模词表,从而引发词向量规模庞大的问题,导致模型的训练效率低下。
3、因此,如何在满足大语言模型的词向量表达需求的基础上,兼顾模型的训练效率成为亟需解决的技术问题。
技术实现思路
1、本专利技术实施例的目的在于提供一种模型训练方法、装置、电子设备以及存储介质,以在满足大语言模型的词向量表达需求的基础上,兼顾模型的训练效
...【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二处理方式包括:
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述初始概率分布中概率最大的类别,执行第一处理方式或第二处理方式,得到该训练样本的预测结果,包括:
4.根据权利要求1或2所述的方法,其特征在于,各个预定向量查找表为:针对所述编码位数中的每一位进行设置的一向量查找表,所述向量查找表中包括与所述进制数相同的行数;
5.根据权利要求1或2所述的方法,其特征在于,所述预设字典的构建方式包括:
6.
...【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第二处理方式包括:
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述初始概率分布中概率最大的类别,执行第一处理方式或第二处理方式,得到该训练样本的预测结果,包括:
4.根据权利要求1或2所述的方法,其特征在于,各个预定向量查找表为:针对所述编码位数中的每一位进行设置的一向量查找表,所述向量查找表中包括与所述进制数相同的行数;
5.根据权利要求1或2所述的方法,其特征在于,所述预设字典的构建方式包括:
6.根据权利要求5所述的方法,其特征在于,所述第二字符...
【专利技术属性】
技术研发人员:李剑戈,蒋卓,曹震,马金龙,殷宪晨,
申请(专利权)人:中信建投证券股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。