【技术实现步骤摘要】
本专利技术涉及大模型聊天机器人,尤其是涉及一种用于聊天机器人的编译次数优化方法、设备及介质。
技术介绍
1、随着大模型技术的发展,利用大模型技术开发的聊天机器人开始普及。
2、如图1所示,聊天机器人回答的简化流程包括:用户输入语句提交给聊天机器人;聊天机器人将用户语句处理为令牌(token)序列;聊天机器人使用大模型,将令牌序列作为输入进行推理,得到输出令牌序列;聊天机器人对于大模型输出的令牌序列进行文本化以及后处理,得到人类可以理解的文字。
3、上述流程从用户输入语句开始为起点,最后聊天机器人返回了聊天对话的下一句,可以依次重复这个流程让用户与聊天机器人进行对话。
4、由于大模型对于算力的需求很大,需要对大模型推理进行编译优化,加速大模型的推理速度;目前的深度学习编译器在对于静态输入形状的模型有较好的优化效果,而对于动态形状输入形状的模型效果较为一般。
5、因此现有技术的缺点包括:
6、1)无法在保证计算结果正确的情况下,使得编译器优化的模型的输入为静态形状;简单的对于输入令
...【技术保护点】
1.一种用于聊天机器人的编译次数优化方法,其特征在于,该方法基于深度学习编译器来实现,通过对大模型推理的部分流程进行修改,包括对大模型推理阶段输入提示令牌和历史推理的键值缓存进行补齐,同时对指数归一化之前进行掩码数据处理。
2.根据权利要求1所述的一种用于聊天机器人的编译次数优化方法,其特征在于,所述对大模型推理阶段输入提示令牌和历史推理的键值缓存进行补齐包括:
3.根据权利要求2所述的一种用于聊天机器人的编译次数优化方法,其特征在于,仅对首次所述“用户输入语句转换的令牌序列进行”在序列维度进行前侧补齐,而在后续由大模型生成的单个令牌作为输入的
...【技术特征摘要】
1.一种用于聊天机器人的编译次数优化方法,其特征在于,该方法基于深度学习编译器来实现,通过对大模型推理的部分流程进行修改,包括对大模型推理阶段输入提示令牌和历史推理的键值缓存进行补齐,同时对指数归一化之前进行掩码数据处理。
2.根据权利要求1所述的一种用于聊天机器人的编译次数优化方法,其特征在于,所述对大模型推理阶段输入提示令牌和历史推理的键值缓存进行补齐包括:
3.根据权利要求2所述的一种用于聊天机器人的编译次数优化方法,其特征在于,仅对首次所述“用户输入语句转换的令牌序列进行”在序列维度进行前侧补齐,而在后续由大模型生成的单个令牌作为输入的情形下,视补齐长度为0。
4.根据权利要求2所述的一种用于聊天机器人的编译次数优化方法,其特征在于,将输入的补齐序列长度+实际令牌序列长度为一个预设的定值。
5.根据权利要求2所述的一种用于聊天机器人的编译次数优化方法,其特征在于,所述“历史键缓存”和“历史值缓存”首先分别与“此时键”和“此时值”进行拼接,然后在序列维度进行前侧补齐,同时进行拼接之后的切出操作;其中所述切出的长度为相应拼接“此时键”和“此时值”的序列长度,切出后分别得到“用于矩阵乘法的历史键缓存”和“用于矩阵乘法的历史值缓存”。
6.根据权利要求5所述的一种用于聊天机器人的编译次数优化方法,其特征在于,所述“...
【专利技术属性】
技术研发人员:陈驰宇,金旻玺,裴芝林,张行程,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。