一种基于向量技术用于大模型多轮对话的token优化方法技术

技术编号：41286255 阅读：4 留言：0更新日期：2024-05-11 09:34

本发明专利技术提供一种基于向量技术用于大模型多轮对话的token优化方法，利用token优化方法对Token数量进行优化处理，所述token优化方法是通过历史问题和新问题两个维度对历史信息进行相关度划分，进而通过对历史记录进行信息相关性和信息密度的判断来压缩历史记录数据，实现Token数量的大幅下降。所述基于向量技术用于大模型多轮对话的token优化方法，能够将大模型对话过程中的Token数量成倍的降低，而且并不降低大模型的输出质量，同时此方案属于内部优化，外部系统或使用者完全没有感知，费用花销成倍降低，大模型反应的时间也会变短，能显著提升大模型的运行效率，对于大模型后台服务的压力会降低。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种token优化方法，尤其是涉及一种基于向量技术用于大模型多轮对话的token优化方法。

技术介绍

1、近年来，深度学习与自然语言处理的发展成果，使得机器在处理自然语言上有了很大的进步，生成式大模型就是其中的代表之一。生成式大模型(后简称大模型)的出现，使得ai的自然语言理解和生成更加接近人类水平，为人类带来更多便利。

2、各种不同的生成式大模型如雨后春笋般的涌现，各种大模型应用也层出不穷。从应用层面来说，大模型势必需要应用在结合上下文的多轮对话中，各家大模型也都引入了多轮对话的训练，能够让大模型在对话中理解上下文。但由于大模型预测本身的机制，大模型的对话从原理上讲都是一次性的，大模型自身是无法存储对话的过程，也就无法实现原生的基于上下文的多轮对话，每一次向大模型的询问，都是一次全新的对话。目前所有大模型的多轮对话技术都需要在每一次对话时，将历史对话内容也一并提供给大模型，也就是说，对于大模型来说还是一次全新的对话，只不过这个对话的输入提供了历史对话记录，同时大模型经过了多轮对话的训练后能够理解历史对话记录，而显得像是进行了多轮对话。

3、大模型的重点应用场景之一，就是利用已有知识，基于向量化技术形成的知识问答功能，此功能会利用向量化技术将已有知识转换成向量，当提问的时候，借助向量的对比找到相关知识，配合问题的问题，一次性交给大模型进行提问，当单轮对话的时候这个方案并没有太多的问题，但当进行多轮对话的时候，由于需要带上历史信息，因此每次提问大模型的数据量都会增长，而由于每次向量检索的知识都

技术实现思路

1、本专利技术提供了一种基于向量技术用于大模型多轮对话的token优化方法，解决了在使用向量化技术的知识问答大模型应用中，有效减少多轮对话输入tokne数量的问题，其技术方案如下所述：

2、一种基于向量技术用于大模型多轮对话的token优化方法，包括以下步骤：

3、s1：当根据问题进行提问的时候，借助向量检索生成提问提示词；

4、s2：随着多个对话轮次进行，通过提问提示词拼装历史记录，并存储到历史记录中，token数量随之增多；

5、s3：利用token优化方法对token数量进行优化处理，根据之前的提问提示词生成问题，并利用提问大模型进行问题内容的生成；

6、所述token优化方法是通过历史问题和新问题两个维度对历史信息进行相关度划分，进而通过对历史记录进行信息相关性和信息密度的判断来压缩历史记录数据，实现token数量的大幅下降。

7、步骤s3中，所述token优化方法对于新问题和历史问题相关都高的数据进行保留；对于新问题相关度高，但历史问题相关度低的数据尝试进行信息密度的压缩，如果无法压缩，则直接进行保留；对于新问题相关度低，而历史问题相关度高的数据需要抛弃。

8、所述token优化方法中，对于新老问题相关度都低的数据，理论上并不存在。

9、步骤s2中，对历史记录进行升级优化，需要分别保存当时的输入问题，以及当时向量检索结果，包括文本和向量内容。

10、所述信息密度是指在给定的文本或数据中包含有用信息的程度。

11、步骤s2中，历史记录类型需要进行分类，分类标准如下：历史问题信息相关度高；历史问题信息相关度低；最新问题信息相关性高；最新问题信息相关度低；信息本身信息密度高；信息本身信息密度低。

12、步骤s3中，所述token优化方法是对历史记录进行处理，历史记录中包含大量与历史问题相关度较高的信息，这些信息未必与当前问题相关度高，需要对这些信息进行区别处理。

13、所述基于向量技术用于大模型多轮对话的token优化方法，具有以下有益效果：

14、(1)本方案能够将大模型对话过程中的token数量成倍的降低，而且并不降低大模型的输出质量，同时此方案属于内部优化，外部系统或使用者完全没有感知。

15、(2)token数量降低能够直观带来费用的降低，目前大模型的收费模式都是基于token数量进行收费，token成倍降低也就意味着这方面的费用花销成倍降低。

16、(3)token数量减低的时候，大模型反应的时间也会变短，直观的感受就是提了问题之后回答更快了。

17、(4)token数量减低之后，大模型上下文token数量限制内能够进行的对话会大幅上升，直观感受就是大模型能记得的事情更多了，不会忘记更早的内容。

18、(5)token数量降低还能带来隐含的好处，大模型的运行效率受到需要处理的数据的token数量影响，输入数据的token数量太多会影响大模型整体的运行效率，token数量的下降能显著提升大模型的运行效率，对于大模型后台服务的压力会降低，相同资源，相同时间内大模型能够支持的业务对话会成倍上涨，这部分对于自建大模型的场景来说也能节省大模型扩容带来的成本上升。

本文档来自技高网...

【技术保护点】

1.一种基于向量技术用于大模型多轮对话的token优化方法，包括以下步骤：

2.根据权利要求1所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：步骤S3中，所述token优化方法对于新问题和历史问题相关都高的数据进行保留；对于新问题相关度高，但历史问题相关度低的数据尝试进行信息密度的压缩，如果无法压缩，则直接进行保留；对于新问题相关度低，而历史问题相关度高的数据需要抛弃。

3.根据权利要求2所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：所述token优化方法中，对于新老问题相关度都低的数据，理论上并不存在。

4.根据权利要求1所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：步骤S2中，对历史记录进行升级优化，需要分别保存当时的输入问题，以及当时向量检索结果，包括文本和向量内容。

5.根据权利要求2所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：所述信息密度是指在给定的文本或数据中包含有用信息的程度。

6.根据权利要求1所述的基于向量技

7.根据权利要求1所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：步骤S3中，所述token优化方法是对历史记录进行处理，历史记录中包含大量与历史问题相关度较高的信息，这些信息未必与当前问题相关度高，需要对这些信息进行区别处理。

...

【技术特征摘要】

1.一种基于向量技术用于大模型多轮对话的token优化方法，包括以下步骤：

2.根据权利要求1所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：步骤s3中，所述token优化方法对于新问题和历史问题相关都高的数据进行保留；对于新问题相关度高，但历史问题相关度低的数据尝试进行信息密度的压缩，如果无法压缩，则直接进行保留；对于新问题相关度低，而历史问题相关度高的数据需要抛弃。

4.根据权利要求1所述的基于向量技术用于大模型多轮对话的token优化方法，其特征在于：步骤s2中，对历史记录进行升级优化，需要分别保存当时的输入问题，...

【专利技术属性】
技术研发人员：史墨轩，盛广源，韩晴，
申请(专利权)人：北京易华录信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人