基于空间网格的注意力机制的模型构建方法、装置及设备制造方法及图纸

技术编号：41523037 阅读：26 留言：0更新日期：2024-06-03 22:56

本申请公开了一种基于空间网格的注意力机制的模型构建方法、装置及设备，涉及深度学习领域，包括：基于若干状态空间构建用于存储短期记忆的第一空间网格和用于存储长期记忆的第二空间网格，利用第一空间网格和第二空间网格对预训练语言模型中的转换器模块的自注意力机制进行替换得到大模型；利用大模型基于输入向量生成写入坐标和读取坐标；基于双边线性插值对第一空间网格中写入坐标所处的状态空间进行写入，并对第二空间网格和第一空间网格中读取坐标所处的两个状态空间进行读取以基于读取参数确定输出向量。本申请基于若干状态空间构建空间网格，扩大状态记忆空间以存储更多知识，通过坐标准确定位需要写入和读取的状态空间，提高模型效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习领域，特别涉及一种基于空间网格的注意力机制的模型构建方法、装置及设备。

技术介绍

1、transformer的输入是一个向量序列，输出也是一个向量序列。为了让序列中的某个向量的信息能“关注”到其他向量的信息，然后“有的放矢”的综合这些信息去计算输出，transformer使用自注意力机制。但是transformer使用的自注意力机制，要求序列中的每个向量都和其他向量计算自注意力关系，假设有2048个元素，就需要计算2048×2048＝4194304次，训练和推理的速度比较慢，而且随着输入序列的增长，计算量会呈指数级别的上升。

2、线性注意力机制的提出就是因为自注意力机制计算太过缓慢，占用内存太过巨大，其中rwkv模型已经成熟的在大语言模型上使用。假设将输入向量序列中的某个向量i使用自注意力机制输出的向量v’i的公式近似表示为：

3、

4、其中，n表示输入向量序列的长度，q表示向量i经过矩阵映射得到的查询向量；k表示向量i经过矩阵映射得到的键向量；v表示向量i经过矩阵映射得到的值向...

【技术保护点】

1.一种基于空间网格的注意力机制的模型构建方法，其特征在于，所述大模型为利用第一空间网格和第二空间网格对预训练大语言模型中的转换器模块的自注意力机制进行替换得到的模型，所述第一空间网格为基于若干状态空间构建的用于存储短期记忆的网格，所述第二空间网格为基于所述若干状态空间构建的用于存储长期记忆的网格，所述第一空间网格与所述第二空间网格的大小相一致；其中，所述方法包括：

2.根据权利要求1所述的基于空间网格的注意力机制的模型构建方法，其特征在于，所述获取基于文本数据生成的输入向量之后，还包括：

3.根据权利要求2所述的基于空间网格的注意力机制的模型构建方法，其特征在于...

【技术特征摘要】

2.根据权利要求1所述的基于空间网格的注意力机制的模型构建方法，其特征在于，所述获取基于文本数据生成的输入向量之后，还包括：

3.根据权利要求2所述的基于空间网格的注意力机制的模型构建方法，其特征在于，所述基于双边线性插值算法对所述写入状态空间进行写入操作，以得到写入后的第一空间网格，包括：

4.根据权利要求2所述的基于空间网格的注意力机制的模型构建方法，其特征在于，所述基于所述双边线性插值算法分别对所述第一读取状态空间和所述第二读取状态空间进行读取操作，以基于读取参数确定输出向量，包括：

5.根据权利要求...

【专利技术属性】
技术研发人员：刘伟华，严宇，肖要林，
申请(专利权)人：智慧眼科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人