一种大语言模型预训练阶段损失计算的优化方法及系统技术方案

技术编号:40823057 阅读:20 留言:0更新日期:2024-04-01 14:43
本发明专利技术提供了一种大语言模型预训练阶段损失计算的优化方法包括如下方法步骤:S1、提取自然语言段A的第一特征矩阵C1;S2、构造预测分布矩阵C2;S3、利用logsoftmax函数对预测分布矩阵C2进行处理,得到第二特征矩阵C3;S4、生成第一预测损失向量L1;S5、生成第二预测损失向量L2;S6、将第二预测损失向量L2的每一个元素计算平均值,得到自然语言段A的损失值。本发明专利技术充分利用上下文信息量这一因素,对靠前文本的损失进行衰减,适当放宽靠前文本的预测错误,有效解决大语言模型对位置靠前的文本难以准确预测的问题。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其是涉及一种大语言模型预训练阶段损失计算的优化方法及系统


技术介绍

1、大语言模型是一种先进的自然语言处理技术产物,通常具有数十亿甚至上千亿的参数,可以处理广泛的自然语言处理任务,如文本生成、文本分类、语义理解、机器翻译、对话系统等。其中,文本生成类任务业界主流使用decoder-only架构的大语言模型来处理。

2、大语言模型(例如decoder-only)的训练是通过反向传播算法来更新其内部参数的,训练环节中很重要的一点是样本预测损失的计算。具体而言,训练过程中,模型通过使用上文的信息进行逐字预测,再将各字符的损失进行累加,来作为整体损失,从而用来反向更新模型参数。

3、对于位置偏后的文本因为前方已经出现较多的上文,所以容易被预测准确,而位置靠前的文本因为上文较少甚至无上文,从而难以预测准确。

4、传统的损失计算方法是保持一视同仁,将各个位置的损失重要性同等看待,未能考虑上文信息量的差异因素,对位置靠前的文本难以准确预测。


技术实现思路

1、本本文档来自技高网...

【技术保护点】

1.一种大语言模型预训练阶段损失计算的优化方法,其特征在于,所述优化方法包括如下方法步骤:

2.根据权利要求1所述的优化方法,其特征在于,在步骤S1中,通过大语言模型的分词词表,构造自然语言段A的自然语言索引向量B。

3.根据权利要求1所述的优化方法,其特征在于,在步骤S1中,所述第一特征矩阵C1包括m行n列,

4.根据权利要求1所述的优化方法,其特征在于,在步骤S2中,构造的所述预测分布矩阵C2的行数与所述第一特征矩阵C1的行数相同;

5.根据权利要求1所述的优化方法,其特征在于,在步骤S3中,利用logsoftmax函数对所述预测分布矩...

【技术特征摘要】

1.一种大语言模型预训练阶段损失计算的优化方法,其特征在于,所述优化方法包括如下方法步骤:

2.根据权利要求1所述的优化方法,其特征在于,在步骤s1中,通过大语言模型的分词词表,构造自然语言段a的自然语言索引向量b。

3.根据权利要求1所述的优化方法,其特征在于,在步骤s1中,所述第一特征矩阵c1包括m行n列,

4.根据权利要求1所述的优化方法,其特征在于,在步骤s2中,构造的所述预测分布矩阵c2的行数与所述第一特征矩阵c1的行数相同;

5.根据权利要求1所述的优化方法,其特征在于,在步骤s3中,利用logsoftmax函数对所述预测分布矩阵c2的每一个元素,按照如下方法计算得到第二特征矩阵c3:

【专利技术属性】
技术研发人员:李多海
申请(专利权)人:上海岩芯数智人工智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1