【技术实现步骤摘要】
本专利技术涉及计算机,尤其是涉及一种大语言模型预训练阶段损失计算的优化方法及系统。
技术介绍
1、大语言模型是一种先进的自然语言处理技术产物,通常具有数十亿甚至上千亿的参数,可以处理广泛的自然语言处理任务,如文本生成、文本分类、语义理解、机器翻译、对话系统等。其中,文本生成类任务业界主流使用decoder-only架构的大语言模型来处理。
2、大语言模型(例如decoder-only)的训练是通过反向传播算法来更新其内部参数的,训练环节中很重要的一点是样本预测损失的计算。具体而言,训练过程中,模型通过使用上文的信息进行逐字预测,再将各字符的损失进行累加,来作为整体损失,从而用来反向更新模型参数。
3、对于位置偏后的文本因为前方已经出现较多的上文,所以容易被预测准确,而位置靠前的文本因为上文较少甚至无上文,从而难以预测准确。
4、传统的损失计算方法是保持一视同仁,将各个位置的损失重要性同等看待,未能考虑上文信息量的差异因素,对位置靠前的文本难以准确预测。
技术实现思路
1、本本文档来自技高网...
【技术保护点】
1.一种大语言模型预训练阶段损失计算的优化方法,其特征在于,所述优化方法包括如下方法步骤:
2.根据权利要求1所述的优化方法,其特征在于,在步骤S1中,通过大语言模型的分词词表,构造自然语言段A的自然语言索引向量B。
3.根据权利要求1所述的优化方法,其特征在于,在步骤S1中,所述第一特征矩阵C1包括m行n列,
4.根据权利要求1所述的优化方法,其特征在于,在步骤S2中,构造的所述预测分布矩阵C2的行数与所述第一特征矩阵C1的行数相同;
5.根据权利要求1所述的优化方法,其特征在于,在步骤S3中,利用logsoftmax
...【技术特征摘要】
1.一种大语言模型预训练阶段损失计算的优化方法,其特征在于,所述优化方法包括如下方法步骤:
2.根据权利要求1所述的优化方法,其特征在于,在步骤s1中,通过大语言模型的分词词表,构造自然语言段a的自然语言索引向量b。
3.根据权利要求1所述的优化方法,其特征在于,在步骤s1中,所述第一特征矩阵c1包括m行n列,
4.根据权利要求1所述的优化方法,其特征在于,在步骤s2中,构造的所述预测分布矩阵c2的行数与所述第一特征矩阵c1的行数相同;
5.根据权利要求1所述的优化方法,其特征在于,在步骤s3中,利用logsoftmax函数对所述预测分布矩阵c2的每一个元素,按照如下方法计算得到第二特征矩阵c3:
【专利技术属性】
技术研发人员:李多海,
申请(专利权)人:上海岩芯数智人工智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。