【技术实现步骤摘要】
本专利技术属于计算机数据处理,具体涉及一种长期对话记忆压缩与对话模型适配方法,旨在降低计算复杂度的同时增强模型对长上下文序列的处理能力。
技术介绍
1、transformer架构的出现为自然语言处理领域带来了重大变革,其独特的自注意力机制使模型能够同时关注序列中的各个位置,有效捕捉序列中长程依赖关系的同时并行地处理序列数据,强大且高效的序列建模能力使其成为当前大语言模型(llm)的主流架构。该架构包含编码器(encoder)和解码器(decoder)两部分,最初主要用于机器翻译等需要编码与解码过程的任务。随着语言模型的发展,逐渐形成了以bert为代表的encoder-only架构和以gpt为代表的decoder-only架构。encoder-only架构的编码器采用全局注意力机制,天然适配摘要等任务,常被用作嵌入模型的结构;而decoder-only架构在生成任务中展现出独特优势,成为主流大模型架构之一。
2、decoder-only模型通过因果掩码以自回归方式预测下一个词,与序列生成任务天然契合。在需要动态处理多轮对话并保
...【技术保护点】
1.一种长期对话记忆压缩与对话模型适配方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种长期对话记忆压缩与对话模型适配方法,其特征在于,步骤S1的具体过程为:
3.如权利要求2所述的一种长期对话记忆压缩与对话模型适配方法,其特征在于,步骤S14的计算公式为:
4.如权利要求1所述的一种长期对话记忆压缩与对话模型适配方法,其特征在于,步骤S2的计算公式为:,,,,,,,,,其中,为序列的第个标识;为维度大小;为对进行序列自注意力查询映射的计算参数矩阵;为对进行序列自注意力键映射的计算参数矩阵;为对进行序列自注意力值映射的计算
...【技术特征摘要】
1.一种长期对话记忆压缩与对话模型适配方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种长期对话记忆压缩与对话模型适配方法,其特征在于,步骤s1的具体过程为:
3.如权利要求2所述的一种长期对话记忆压缩与对话模型适配方法,其特征在于,步骤s14的计算公式为:
4.如权利要求1所述的一种长期对话记忆压缩与对话模型适配方法,其特征在于,步骤s2的计算公式为:,,,,,,,,,其中,为序列的第个标识;为维度大小;为对进行序列自注意力查询映射的计算参数矩阵;为对进行序列自注意力键映射的计算参数矩阵;为对进行...
【专利技术属性】
技术研发人员:吴炳坤,姚锋,王筝,黄世勇,汪中,
申请(专利权)人:众数厦门信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。