一种基于注意力机制的数据缓存方法、装置、设备及介质制造方法及图纸

技术编号：41535903 阅读：35 留言：0更新日期：2024-06-03 23:14

本申请提供了一种基于注意力机制的数据缓存方法、装置、设备及介质，包括：将用户的目标提问信息输入至大语言模型之中，对目标提问信息进行向量映射处理，确定出目标提问信息对应的多个Token向量；对每个Token向量进行注意力计算，确定出每个Token向量对应的优先级得分值；基于大语言模型的数据缓存区域中预设的数据缓存值、得分值阈值以及每个Token向量对应的优先级得分值对将每个Token向量进行分配至相对应的数据缓存区域。从而实现了增强大语言模型的吞吐性能，在经过缓存优化后，在原有的显存上可以容纳更多的信息，从而让大语言模型接受更多的信息进行预测。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据缓存，尤其是涉及一种基于注意力机制的数据缓存方法、装置、设备及介质。

技术介绍

1、随着人工智能的发展，人机对话逐渐成为一项热门的技术，大语言模型作为人机对话的基础，其参数量也在逐步提升，规模越大的语言模型就拥有越高的智能，可以实现更高层级的人工智能。但是规模的巨大导致人机对话应用需要耗费巨大的资源来运行，这就对运行模型的机器提出了更高的要求。为了减小运行模型的机器压力，就需要对模型运行的每个方面进行优化，在缓存方面，就可以使用一些算法优化缓存大小，从而降低运行压力。目前在人机对话时使用大语言模型的主流优化方式并不涉及对模型缓存的改造，因为这种方式破坏了数据的完备性。生成预测值的时候如果在缓存中缺失了对应的数据而选取空来代替，会导致模型预测的正确率大幅度下降，但是在实际预测的过程中，由于稀疏矩阵的存在，大量的缓存空间实际上会被浪费掉，所以，如何对数据进行缓存成为了不容小觑的技术问题。

技术实现思路

1、有鉴于此，本申请的目的在于提供一种基于注意力机制的数据缓存方法、装置、设备...

【技术保护点】

1.一种基于注意力机制的数据缓存方法，其特征在于，所述数据缓存方法包括：

2.根据权利要求1所述的数据缓存方法，其特征在于，所述对每个所述Token向量进行注意力计算，确定出每个所述Token向量对应的注意力优先级得分值，包括：

3.根据权利要求1所述的数据缓存方法，其特征在于，所基于所述大语言模型的数据缓存区域中预设的数据缓存值、得分值阈值以及每个所述Token向量对应的优先级得分值对将每个所述Token向量进行分配至相对应的数据缓存区域，包括：

4.根据权利要求3所述的数据缓存方法，其特征在于，所述对所述得分值阈值进行调整，基于调整后的所述得分值阈...

【技术特征摘要】

1.一种基于注意力机制的数据缓存方法，其特征在于，所述数据缓存方法包括：

2.根据权利要求1所述的数据缓存方法，其特征在于，所述对每个所述token向量进行注意力计算，确定出每个所述token向量对应的注意力优先级得分值，包括：

3.根据权利要求1所述的数据缓存方法，其特征在于，所基于所述大语言模型的数据缓存区域中预设的数据缓存值、得分值阈值以及每个所述token向量对应的优先级得分值对将每个所述token向量进行分配至相对应的数据缓存区域，包括：

4.根据权利要求3所述的数据缓存方法，其特征在于，所述对所述得分值阈值进行调整，基于调整后的所述得分值阈值对所述token向量进行分配，确定出存储在所述数据缓存区域的所述token向量：

5.根据权利要求3所述的数据缓存方法，其特征在于，所述基于所述token向量对应的优先级得分值以及所述得分值阈值对所述token向量进行分配，确定出存储在所述数据缓存区域的所述token向量，包括：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：李小龙，李晓波，
申请(专利权)人：北京远舢智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人