【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种基于异构众核的大规模混合专家语言模型推理方法及架构。
技术介绍
1、大规模混合专家语言模型(mixture of experts,llm)通过集成多个专家网络,每个专家在不同方面具有专业知识,从而提供更高效和针对性的处理能力。混合专家模型将输入数据分成多个区域,并由一个门控机制决定哪个专家模型处理特定的输入,每个专家模型专注于处理自己擅长的领域。混合专家模型在推理过程中只激活相关的专家,从而在减少计算成本的同时提高了性能,在自然语言处理(nlp)领域得到广泛应用。例如,mistral的mixtral 8x7b采用了moe架构,有效地结合了多个专家以提高性能。
2、但是,当前实现大规模混合专家语言模型在多个计算设备上推理的主要方案是通过流水线并行的方式。具体的,现有技术通过将模型的不同部分划分到不同的计算设备上执行不同的操作。例如,模型被划分成多个子模型或者层,每个子模型或层在不同设备上执行计算,子模型或层之间基于设备上的通信库通过消息传递进行通信,以传递必要的中间结果,最终实现大规模混合专家
...【技术保护点】
1.一种基于异构众核的大规模混合专家语言模型推理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在根据所述计算设备数量以及各计算设备中的核数量,将专家多层感知机层的输入张量进行切分,得到多个张量切分结果之前,还包括:
3.根据权利要求2所述的方法,其特征在于,在将各计算设备的注意力并行计算结果进行聚合,得到整体多头注意力输出结果之后,还包括:
4.根据权利要求1所述的方法,其特征在于,大规模混合专家语言模型,包括:输入嵌入向量层、多头注意力层、门控矩阵乘、激活函数及归一化层、专家多层感知机层、以及规约和层。
>5.一种基于...
【技术特征摘要】
1.一种基于异构众核的大规模混合专家语言模型推理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在根据所述计算设备数量以及各计算设备中的核数量,将专家多层感知机层的输入张量进行切分,得到多个张量切分结果之前,还包括:
3.根据权利要求2所述的方法,其特征在于,在将各计算设备的注意力并行计算结果进行聚合,得到整体多头注意力输出结果之后,还包括:
4.根据权利要求1所述的方法,其特征在于,大规模混合专家语言模型,包括:输入嵌入向量层、多头注意力层、门控矩阵乘、激活函数及归一化层、专家多层感知机层、以及规约和层。
5.一种基于异构众核的大规模混合专家语言模型推理架构,其特征在于,所述推理架构,包括多个计...
【专利技术属性】
技术研发人员:何荞至,李傲,吴志华,孙瑞鑫,
申请(专利权)人:太初无锡电子科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。