【技术实现步骤摘要】
本专利技术涉及语言处理及深度学习,具体涉及一种提高大模型私人助理上下文能力的方法。
技术介绍
1、随着人工智能技术的快速发展,大型语言模型可以作为个人助理应用于日常生活,提供从回答问题到管理日程的各种服务,甚至能够进行日常对话。
2、大型语言模型在个人助理领域的应用日益广泛,涵盖了从问题回答到日程管理等各种服务,甚至能够进行日常对话。然而,当前的大型模型在处理长文本上下文时存在着局限性,主要由于其基于transformer中decoder结构的设计,其中的注意力机制计算复杂度高,使得处理长文本的经济成本变得很高。
3、目前的大模型基本以transformer中的decoder结构为框架加以训练,decoder的自注意力机制部分(attention)是核心部件。其计算公式为:
4、k=xwk,v=xwvq=xwq
5、
6、其中,k,q,v为输入x经过可学习矩阵wk,wv,wq后的映射矩阵,其维度均为length×d_model,length为句子的token数(可简单理解为字数
...【技术保护点】
1.一种提高大模型私人助理上下文能力的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的提高大模型私人助理上下文能力的方法,其特征在于:在步骤S1中,动态路由机制是指路由器根据输入tokens的特征生成一个标量权重,然后利用top-k机制选择将通过Transformer块的tokens;Transformer块通常包括自注意力和随后的一层或多层MLP。
3.根据权利要求2所述的提高大模型私人助理上下文能力的方法,其特征在于:标量权重的生成:假设在给定层次l中,序列的长度为S,输入tokens的集合表示为为了获得每个token的标量权重,
...【技术特征摘要】
1.一种提高大模型私人助理上下文能力的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的提高大模型私人助理上下文能力的方法,其特征在于:在步骤s1中,动态路由机制是指路由器根据输入tokens的特征生成一个标量权重,然后利用top-k机制选择将通过transformer块的tokens;transformer块通常包括自注意力和随后的一层或多层mlp。
3.根据权利要求2所述的提高大模型私人助理上下文能力的方法,其特征在于:标量权重的生成:假设在给定层次l中,序列的长度为s,输入tokens的集合表示为为了获得每个token的标量权重,路由器使用线性投影,产生一个标量值:其中:i为当前token在序列中的位置;w为线性投影的权重向量,t为整个序列和批次中的总tokens数量,θ为线性投影的参数集合。
4.根据权利要求2所述的提高大模型私人助理上下文能力的方法,其特征在于:使用top-k选择tokens时,根据生成的标量权重,使用top-k机制选择每个层次中需要经过计算路径的tokens,设定一个用户定义的容量值c,定义一个块中最多可处理的tokens数量;如果tokens的标量权重超过阈值pβ(rl)...
【专利技术属性】
技术研发人员:张峻铭,尹青山,房兰涛,
申请(专利权)人:山东浪潮超高清智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。