【技术实现步骤摘要】
一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质
[0001]本专利技术属于人工智能深度学习领域,具体的,涉及一种基于人工智能的分布式训练和推理方法、系统、设备和可读存储介质。
技术介绍
[0002]近几年,AI训练市场出现需求拐点,算力市场上需求急速扩大,需要提高算力使用效率,大规模算法在最近两年开始爆发式突破,而且新算法和新模型还会不断涌现,市场对算力的需求会越来越大,大模型无法用单块GPU训练,因为模型参数量太大,放不到单块GPU的显存当中;即使能够放下,训练时间也无法接受,硬件算力的增长趋势远远跟不上模型对算力的需求,必须使用更多硬件(芯片)弥补算力增长短板。
[0003]企业场景下,大规模部署时涉及到大量的因素,包括时延、吞吐量、成本、负载均衡等等,主要困难包括通信瓶颈造成算力效率难以提升:现有训练中GPU算力的最高利用率也只有30%,计算、存储、网络资源需要在不同任务间共享,涉及隔离和调度的问题,不同任务需要不同的分布式训练解决方案和硬件,有额外的软硬件成本。
技术实现思路
[0004]针对上述介绍的现有技术的缺陷,本专利技术将打造一个高效率低耗能、适用于AI大模型的通用分布式人工智能系统,帮助企业在最大化提升人工智能部署效率的同时,还能将部署成本最小化。
[0005]本申请实施例提供了一种基于人工智能的分布式训练和推理方法、系统、设备及介质。
[0006]第一方面,本申请实施例提供了一种基于人工智能的分布式训练和推理方法,用于硬件处理器,所述方法执
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的分布式训练和推理方法,用于硬件处理器,所述方法执行于软件平台,使用机器学习库;其特征在于,所述方法包括步骤:获取多个AI任务的任务参数,依据所述多个AI任务的任务参数获取调度决策,将所述多个AI任务分配至多个所述硬件处理器上,得到所述AI任务的计算资源;获取所述分配至多个所述硬件处理器上的AI任务的计算资源,对所述AI任务的训练任务,在各自硬件处理器上执行多维并行处理,获取AI任务的输出结果;获取所述执行并行处理后的AI任务的并行处理结果,针对所述AI任务的训练任务,根据模型当前输出结果计算梯度,根据模型当前输出结果计算梯度,采用所述AI任务对应的优化器对所述AI任务进行优化处理,得到优化处理后的AI模型参数,不断迭代模型参数进行更新,直至达到目标迭代次数或训练结果已满足要求;所述分配过程中使用优化算法,优化调度决策;所述并行处理方式包括数据并行、序列并行、流水并行、多维网格并行处理;所述AI任务包括训练任务和推理任务。2.如权利要求1所述的一种基于人工智能的分布式训练和推理方法,其特征在于,所述获取所述执行并行处理后的AI任务的并行处理结果,针对所述AI任务的训练任务,根据模型当前输出结果计算梯度,采用所述AI任务对应的优化器对所述AI任务进行优化处理,得到优化处理后的AI模型参数,不断迭代模型参数进行更新,直至达到目标迭代次数或训练结果已满足要求后还包括步骤:对所述优化器处理后的所述AI任务的AI模型参数进行微调与预测,通过微调针对具体应用继续训练模型,最终部署完成训练的模型进行实际应用的推理;所述对所述AI任务的训练任务,在各自硬件处理器上执行多维并行处理,获取AI任务的输出结果的进行过程中,还包括步骤:通过切分和/或卸载优化器状态,梯度,模型参数,完成所述AI任务在所述硬件处理器间的数据迁移;所述AI任务包括图片处理任务和/或自然语言处理任务。3.如权利要求1所述的一种基于人工智能的分布式训练和推理方法,其特征在于,所述获取所述执行并行处理后的AI任务的并行处理结果,针对所述AI任务的训练任务,根据模型当前输出结果计算梯度,采用所述AI任务对应的优化器对所述AI任务进行优化处理,得到优化处理后的AI模型参数,不断迭代模型参数进行更新,直至达到目标迭代次数或训练结果已满足要求,具体包括:所述数据并行将所述AI任务分配到各个所述硬件处理器上,获得所有所述硬件处理器总共同时处理的数据总批大小与每个所述硬件处理器的每次处理数据批大小;所述序列并行会进一步对数据进行切分和/或卸载和分配,将每个所述AI任务放到多个处理器;所述流水并行,将模型拆分成多段,将每一段部署在不同的硬件处理器,并按模型顺序串接起来,前一段的输出作为后一段的输入;所述多维网格并行包括2维和/或2.5维和/或3维的网格并行。4.如权利要求1所述的一种基于人工智能的分布式训练和推理方法,其特征在于,所述
步骤获取所述执行并行处理后的AI任务的并行处理结果,针对所述AI任务的训练任务,根据模型当前输出结果计算梯度,采用所述AI任务对应的优化器对所述AI任务进行优化处理,得到优化处理后的AI模型参数,不断迭代模型参数进行更新,直至达到目标迭代次数或训练结果已满足要求,具体包括:所述AI任务对应的优化器算法包括但不限于LAMB优化器和/或LARS优化器和/或ConAdv优化器和/或La
‑
Lars优化器;所述LAMB、LARS、ConAdv优化器适用于大批次训练,所述LARS用于计算机视觉相关AI任务的处理;所述LAMB用于自然语言处理相关AI任务的处理;所述ConAdv适合速度需求高,精度要求低的AI任务的处理;所述La
‑
Lars适用于通信带宽窄,网络通信成本高的AI任务的处理。5.一种基于人工智能的分布式训练和推理系统,用于硬件处理器,所述系统...
【专利技术属性】
技术研发人员:卞正达,李永彬,柳泓鑫,
申请(专利权)人:北京潞晨科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。