一种提高大模型私人助理上下文能力的方法技术

技术编号:42682649 阅读:13 留言:0更新日期:2024-09-10 12:32
本发明专利技术涉及语言处理及深度学习技术领域,具体涉及一种提高大模型私人助理上下文能力的方法,包括以下步骤:S1、建立基于Transformer模型的优化计算模型;在Transformer模型中引入动态路由机制和残差路径,通过动态路由机制动态选择需要进行计算的tokens进入计算路径,不需要进行计算的tokens进入残差路径;S2、对建立的计算模型进行训练和优化;S3、将训练和优化好的模型用于大模型私人助理的长序列处理。本发明专利技术通过在Transformer模型中引入动态计算分配机制,减少不必要的计算资源消耗,并提高模型处理长上下文的效率。

【技术实现步骤摘要】

本专利技术涉及语言处理及深度学习,具体涉及一种提高大模型私人助理上下文能力的方法


技术介绍

1、随着人工智能技术的快速发展,大型语言模型可以作为个人助理应用于日常生活,提供从回答问题到管理日程的各种服务,甚至能够进行日常对话。

2、大型语言模型在个人助理领域的应用日益广泛,涵盖了从问题回答到日程管理等各种服务,甚至能够进行日常对话。然而,当前的大型模型在处理长文本上下文时存在着局限性,主要由于其基于transformer中decoder结构的设计,其中的注意力机制计算复杂度高,使得处理长文本的经济成本变得很高。

3、目前的大模型基本以transformer中的decoder结构为框架加以训练,decoder的自注意力机制部分(attention)是核心部件。其计算公式为:

4、k=xwk,v=xwvq=xwq

5、

6、其中,k,q,v为输入x经过可学习矩阵wk,wv,wq后的映射矩阵,其维度均为length×d_model,length为句子的token数(可简单理解为字数、词数),d_mod本文档来自技高网...

【技术保护点】

1.一种提高大模型私人助理上下文能力的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的提高大模型私人助理上下文能力的方法,其特征在于:在步骤S1中,动态路由机制是指路由器根据输入tokens的特征生成一个标量权重,然后利用top-k机制选择将通过Transformer块的tokens;Transformer块通常包括自注意力和随后的一层或多层MLP。

3.根据权利要求2所述的提高大模型私人助理上下文能力的方法,其特征在于:标量权重的生成:假设在给定层次l中,序列的长度为S,输入tokens的集合表示为为了获得每个token的标量权重,路由器使用线性投影,...

【技术特征摘要】

1.一种提高大模型私人助理上下文能力的方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的提高大模型私人助理上下文能力的方法,其特征在于:在步骤s1中,动态路由机制是指路由器根据输入tokens的特征生成一个标量权重,然后利用top-k机制选择将通过transformer块的tokens;transformer块通常包括自注意力和随后的一层或多层mlp。

3.根据权利要求2所述的提高大模型私人助理上下文能力的方法,其特征在于:标量权重的生成:假设在给定层次l中,序列的长度为s,输入tokens的集合表示为为了获得每个token的标量权重,路由器使用线性投影,产生一个标量值:其中:i为当前token在序列中的位置;w为线性投影的权重向量,t为整个序列和批次中的总tokens数量,θ为线性投影的参数集合。

4.根据权利要求2所述的提高大模型私人助理上下文能力的方法,其特征在于:使用top-k选择tokens时,根据生成的标量权重,使用top-k机制选择每个层次中需要经过计算路径的tokens,设定一个用户定义的容量值c,定义一个块中最多可处理的tokens数量;如果tokens的标量权重超过阈值pβ(rl)...

【专利技术属性】
技术研发人员:张峻铭尹青山房兰涛
申请(专利权)人:山东浪潮超高清智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1