一种大语言模型加速方法和装置制造方法及图纸

技术编号：39434812 阅读：10 留言：0更新日期：2023-11-19 16:18

本发明专利技术涉及一种大语言模型加速方法和装置，其中，方法包括：接收用户的输入信息和压缩信息；将所述输入信息和压缩信息输入至大语言模型，得到所述输入信息对应的回复信息；所述大语言模型包括三重生成式对抗压缩网络，所述三重生成式对抗压缩网络包括：第一生成器部分，用于根据所述压缩信息对所述输入信息进行压缩处理，得到压缩输入信息；第二生成器部分，用于对所述压缩输入信息进行还原恢复处理，得到还原输入信息，所述还原输入信息的意思表示与所述输入信息的意思表示一致；第三生成器部分，用于对所述还原输入信息进行处理，解决自然语言任务，得到所述输入信息对应的回复信息。本发明专利技术使得大语言模型的性能和使用成本达到平衡。到平衡。到平衡。

全部详细技术资料下载

【技术实现步骤摘要】
一种大语言模型加速方法和装置

[0001]本专利技术涉及人工智能
中的大语言模型，特别是涉及一种大语言模型加速方法和装置。

技术介绍

[0002]随着大语言模型的普及，越来越多的人使用且关注大语言模型作为生活中的工具。然而使用大语言模型的成本往往是不低的。不管是个人还是企业，在使用大语言模型的时候，往往不仅考虑到最后的效果，也考虑到大语言模型的使用成本，特别是在不影响最终人工观感的时候，希望对大语言模型的性能和使用成本达到平衡。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种大语言模型加速方法和装置，能够对语言模型的性能以及推理速度进行动态调整，使得大语言模型的性能和使用成本达到平衡。
[0004]本专利技术解决其技术问题所采用的技术方案是：提供一种大语言模型加速方法，包括以下步骤：
[0005]接收用户的输入信息和压缩信息；
[0006]将所述输入信息和压缩信息输入至大语言模型，得到所述输入信息对应的回复信息；
[0007]所述大语言模型包括三重生成式对抗压缩网络，所述三重生成式对抗压缩网络包括：
[0008]第一生成器部分，用于根据所述压缩信息对所述输入信息进行压缩处理，得到压缩输入信息；
[0009]第二生成器部分，用于对所述压缩输入信息进行还原恢复处理，得到还原输入信息，所述还原输入信息的意思表示与所述输入信息的意思表示一致；
[0010]第三生成器部分，用于对所述还原输入信息进行处理，解决自然语言任务，得到所述输...

【技术保护点】

【技术特征摘要】
1.一种大语言模型加速方法，其特征在于，包括以下步骤：接收用户的输入信息和压缩信息；将所述输入信息和压缩信息输入至大语言模型，得到所述输入信息对应的回复信息；所述大语言模型包括三重生成式对抗压缩网络，所述三重生成式对抗压缩网络包括：第一生成器部分，用于根据所述压缩信息对所述输入信息进行压缩处理，得到压缩输入信息；第二生成器部分，用于对所述压缩输入信息进行还原恢复处理，得到还原输入信息，所述还原输入信息的意思表示与所述输入信息的意思表示一致；第三生成器部分，用于对所述还原输入信息进行处理，解决自然语言任务，得到所述输入信息对应的回复信息。2.根据权利要求1所述的大语言模型加速方法，其特征在于，所述压缩信息为文本形式表示的压缩率、以演示形式表示的压缩率或额外的提示词。3.根据权利要求1所述的大语言模型加速方法，其特征在于，所述第一生成器部分根据所述压缩信息将输出的压缩率设置为预设的离散值，再基于所述预设的离散值对输入信息进行压缩处理。4.根据权利要求1所述的大语言模型加速方法，其特征在于，所述第一生成器部分包括：第一处理单元，用于在所述压缩信息小于或等于第一压缩阈值时，对所述输入信息中关键词以外的随机字符进行丢弃；第二处理单元，用于在所述压缩信息大于或等于第二压缩阈值时，对所述输入信息进行句子简化；第三处理单元，用于在所述压缩信息大于第一压缩阈值，且小于第二压缩阈值时，对所述输入信息进行总结。5.根据权利要求1所述的大语言模型加速方法，其特征在于，所述大语言模型的总体损失由所述第一生成器部分的奖励回馈、第二生成器部分的损失和第三生成器部分的损失加权得到；所述第一生成器部分的奖励回馈为输入信息的压缩程度；第二生成器部分的损失为所述还原输入信息与所述输入信息的偏离值；所述第三生成器部分的损失为输出效果值。6.一种大语言模型加速装...

【专利技术属性】
技术研发人员：陆弘远，
申请(专利权)人：上海脸谱心智智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人