一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质技术方案

技术编号:32266166 阅读:32 留言:0更新日期:2022-02-12 19:28
本申请属于人工智能领域,涉及一种基于人工智能的多维并行处理系统和方法。训练过程中,通过数据并行,自动管理待处理数据,将待处理数据分配到硬件处理器上;序列并行,对数据进行切分和分配,将每个待处理数据放到多个处理器;流水并行,将模型分成多段,各段部署在不同的硬件处理器,并按模型顺序串接,以及多维模型并行,对调度到所述处理器的所述待处理数据的训练模型执行网络模型划分,将训练模型调度至多个所述处理器中,优化器对模型的参数进行更新完成训练过程。在推理过程中,也采用上述的资源调度和多维并行技术。通过在AI模型训练和推理过程中引入多维并行处理,降低AI对计算资源的消耗,提升人工智能部署效率并最小化部署成本。部署成本。部署成本。

【技术实现步骤摘要】
一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质


[0001]本专利技术属于人工智能深度学习领域,具体的,涉及一种基于人工智能的多维并行处理方法、系统、设备和可读存储介质。

技术介绍

[0002]近几年,AI训练市场出现需求拐点,算力市场上需求急速扩大,需要提高算力使用效率,大规模算法在最近两年开始爆发式突破,而且新算法和新模型还会不断涌现,市场对算力的需求会越来越大,大模型无法用单块GPU训练,因为模型参数量太大,放不到单块GPU的显存当中;即使能够放下,训练时间也无法接受,硬件算力的增长趋势远远跟不上模型对算力的需求,必须使用更多硬件(芯片)弥补算力增长短板。
[0003]企业场景下,大规模部署时涉及到大量的因素,包括时延、吞吐量、成本、负载均衡等等,主要困难包括通信瓶颈造成算力效率难以提升:现有训练中GPU算力的最高利用率也只有30%,计算、存储、网络资源需要在不同任务间共享,涉及隔离和调度的问题,不同任务需要不同的多维并行处理解决方案和硬件,有额外的软硬件成本。

技术实现思路

[0004]针对上述介绍本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的多维并行处理方法,用于硬件处理器,所述方法执行于软件平台,使用机器学习库;其特征在于,所述方法包括步骤:数据并行,自动管理来自用户请求的待处理数据,将所述待处理数据分配到各个所述硬件处理器上;序列并行,进一步对待处理数据中的长序列数据进行切分,将每个所述待处理数据进行序列划分放到多个所述处理器中;流水并行,将模型拆分成多段,将每一段部署在不同的硬件处理器,并按模型顺序串接起来,前一段的输出作为后一段的输入;多维模型并行,针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划分,将所述训练模型调度至多个所述处理器中;所述待处理数据包括图片处理任务和/或自然语言处理任务;所述多维模型并行包括2维和/或2.5维和/或3维的网格并行。2.如权利要求1所述的一种基于人工智能的多维并行处理方法,其特征在于,所述步骤数据并行,自动管理来自用户请求的待处理数据,将所述待处理数据分配到各个所述硬件处理器上还包括:所述数据并行中数据被划分,每一个节点或者进程都有一份模型,各个节点取不同的数据的batch size,然后各自完成前向和后向的计算得到梯度,这些进行训练的进程为worker,除了worker,还有参数服务器,ps server,这些worker会把各自计算得到的梯度送到ps server,由ps server来进行update操作,把update后的模型再传回各个节点;所述数据并行能扩大等效batch size,即等效批次大小,通过并行处理器数*单个处理器batch size计算,加速计算。3.如权利要求1所述的一种基于人工智能的多维并行处理方法,其特征在于,所述序列并行,进一步对待处理数据中的长序列数据进行切分,将每个所述待处理数据进行序列划分放到多个所述处理器中,具体包括:所述序列并行延长transformer类模型所接收数据的长度,处理NLP中的长文本和CV任务中的高分辨率图片,即大图片和/或视频,其中图片可以切割成小块的图片,所有小图片依次排列也是序列;视频本身就是图片的序列,每张图片进行再切分;在获取到计算资源后,所述图片处理任务和/或图片的特征数据进行处理,通过数据并行,被分配到各个处理器上,包括但不限于GPU/CPU/TPU,序列并行会进一步对数据进行切分和分配;如果单个数据长度大于阈值,则单个处理器无法处理,序列并行切分后,一个数据放到多个处理器;计算时通过通信,等效为在直接处理整个完整数据。4.如权利要求1所述的一种基于人工智能的多维并行处理方法,其特征在于,多维模型并行,针对调度到所述处理器的所述待处理数据的训练模型执行网格模型划分,将所述训练模型调度至多个所述处理器中,具体包括:所述2维网格并行采用可量型稠密矩阵乘法SUMMA与算法矩阵,利用二维矩阵分割的高效可扩展模型并行模式;
所述2.5维网格并行设计出一个可量化的新型深度学习模型并行架构,最小化图形处理器之间昂贵的传输损失,并提供一个灵活高效的架构,进一步提高模型并行的速度以及效率;所述3维网格并行采用3D并行矩阵乘法,将每个矩阵按行和列分成很多小块,将大矩阵相乘拆分成很多个小矩阵的相乘,将矩阵存储平摊到整个处理器上。5.一种基于人工智能的多维并行处理系统,用于硬件处理器,所述系统执行于软件平台,使用机器学习库;数据并行模块,自动管理来自用户请求的待处理数据,将所述待处理数据分配到各个所述硬件处理器上;序列并行模块,进一步对待...

【专利技术属性】
技术研发人员:卞正达李永彬柳泓鑫
申请(专利权)人:北京潞晨科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1