【技术实现步骤摘要】
本申请涉及通信,尤其涉及一种模型训练、推理方法、装置、设备、存储介质及程序产品。
技术介绍
1、大语言模型(large language model,llm)指可以处理多种自然语言任务(如文本分类、问答、对话)且具有大量参数的深度学习模型。目前学术界以及业界最常使用的大语言模型一般基于transformer架构,其核心技术为自注意力(self-attention)机制。除了提高模型性能外,自注意力机制的优点在于其可以通过显示模型如何在文本分词(token,即模型将文本切分成的单个片段)之间进行权重分配,来辅助人们对于大语言模型运行机理的解释。
2、将大语言模型应用于逻辑推理是学者们目前关注的重点研究领域之一。逻辑推理能力是大语言模型高阶智能的表现之一,然而,该能力的实现难度较高,往往需要依赖参数量巨大(>50b)的大语言模型的支持。这会导致模型训练或运行过程中占用大量计算与产业运行资源。
3、因此,如何对大语言模型逻辑推理能力进行高效的提升从而能够节约资源,是需要解决的技术问题。
>技术实现思路...
【技术保护点】
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取深层动态前缀参数,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述值向量和门控参数,得到动态值向量,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用所述深层动态前缀参数构建初始大语言模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述利用所述训练数据集对所述初始大语言模型进行训练,构建思维图,得到损失函数,包括:
7
...【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取深层动态前缀参数,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述根据所述值向量和门控参数,得到动态值向量,包括:
5.根据权利要求1所述的方法,其特征在于,所述利用所述深层动态前缀参数构建初始大语言模型,包括:
6.根据权利要求1所述的方法,其特征在于,所述利用所述训练数据集对所述初始大语言模型进行训练,构建思维图,得到损失函数,包括:
7.根据权利要求6所述的方法,其特征在于,所述确定所述第二推理处理与已执行的推理处理之间的自注意力强度衡量指标数值,包括:
8.根据权利要求6所述的方法,其特征在于,所述利用得到的概率计算所述损失函数,包括:
9.一种模型推理方法,其特征在于,包括:
10.根据权利要求9所述的方法,其特征在于,所述输出文本包括按序输出的多个文本分词,所述基于所述大语言模型的输出文本,得到所述待处理的逻辑推理问题的最终答案,包括:
11...
【专利技术属性】
技术研发人员:柏瑞乔,韩雪,雷朔,冯俊兰,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。