一种提高大模型私人助理上下文能力的方法技术

技术编号：42682649 阅读：13 留言：0更新日期：2024-09-10 12:32

本发明专利技术涉及语言处理及深度学习技术领域，具体涉及一种提高大模型私人助理上下文能力的方法，包括以下步骤：S1、建立基于Transformer模型的优化计算模型；在Transformer模型中引入动态路由机制和残差路径，通过动态路由机制动态选择需要进行计算的tokens进入计算路径，不需要进行计算的tokens进入残差路径；S2、对建立的计算模型进行训练和优化；S3、将训练和优化好的模型用于大模型私人助理的长序列处理。本发明专利技术通过在Transformer模型中引入动态计算分配机制，减少不必要的计算资源消耗，并提高模型处理长上下文的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语言处理及深度学习，具体涉及一种提高大模型私人助理上下文能力的方法。

技术介绍

1、随着人工智能技术的快速发展，大型语言模型可以作为个人助理应用于日常生活，提供从回答问题到管理日程的各种服务，甚至能够进行日常对话。

2、大型语言模型在个人助理领域的应用日益广泛，涵盖了从问题回答到日程管理等各种服务，甚至能够进行日常对话。然而，当前的大型模型在处理长文本上下文时存在着局限性，主要由于其基于transformer中decoder结构的设计，其中的注意力机制计算复杂度高，使得处理长文本的经济成本变得很高。

3、目前的大模型基本以transformer中的decoder结构为框架加以训练，decoder的自注意力机制部分(attention)是核心部件。其计算公式为：

4、k＝xwk，v＝xwvq＝xwq

5、

6、其中，k，q，v为输入x经过可学习矩阵wk，wv，wq后的映射矩阵，其维度均为length×d_model，length为句子的token数(可简单理解为字数...

【技术保护点】

1.一种提高大模型私人助理上下文能力的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的提高大模型私人助理上下文能力的方法，其特征在于：在步骤S1中，动态路由机制是指路由器根据输入tokens的特征生成一个标量权重，然后利用top-k机制选择将通过Transformer块的tokens；Transformer块通常包括自注意力和随后的一层或多层MLP。

3.根据权利要求2所述的提高大模型私人助理上下文能力的方法，其特征在于：标量权重的生成：假设在给定层次l中，序列的长度为S，输入tokens的集合表示为为了获得每个token的标量权重，路由器使用线性投影，...

【技术特征摘要】

1.一种提高大模型私人助理上下文能力的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的提高大模型私人助理上下文能力的方法，其特征在于：在步骤s1中，动态路由机制是指路由器根据输入tokens的特征生成一个标量权重，然后利用top-k机制选择将通过transformer块的tokens；transformer块通常包括自注意力和随后的一层或多层mlp。

3.根据权利要求2所述的提高大模型私人助理上下文能力的方法，其特征在于：标量权重的生成：假设在给定层次l中，序列的长度为s，输入tokens的集合表示为为了获得每个token的标量权重，路由器使用线性投影，产生一个标量值：其中：i为当前token在序列中的位置；w为线性投影的权重向量，t为整个序列和批次中的总tokens数量，θ为线性投影的参数集合。

4.根据权利要求2所述的提高大模型私人助理上下文能力的方法，其特征在于：使用top-k选择tokens时，根据生成的标量权重，使用top-k机制选择每个层次中需要经过计算路径的tokens，设定一个用户定义的容量值c，定义一个块中最多可处理的tokens数量；如果tokens的标量权重超过阈值pβ(rl)...

【专利技术属性】
技术研发人员：张峻铭，尹青山，房兰涛，
申请(专利权)人：山东浪潮超高清智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人