一种用于分布式AI集群的网络仿真方法及装置制造方法及图纸

技术编号:33775231 阅读:22 留言:0更新日期:2022-06-12 14:28
本发明专利技术公开了一种用于分布式AI集群的网络仿真方法及装置,方法包括:响应于AI集群仿真平台触发生成分布式AI仿真任务;根据生成的分布式AI仿真任务,按照预设的任务分配算法,为分布式AI仿真任务分配AI集群调度资源;根据生成的分布式AI仿真任务,按照预先配置的任务流生成算法将分布式AI仿真任务解析为若干条仿真任务流,并调用AI集群调度资源,利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息;根据路由信息执行完成每条仿真任务流后,获取分布式AI仿真任务的测试数据。本发明专利技术通过AI集群仿真平台封装通用网络仿真器的底层逻辑框架,进行任意的AI集群仿真任务,提高了AI集群仿真效率,扩展了仿真研究的广度。广度。广度。

【技术实现步骤摘要】
一种用于分布式AI集群的网络仿真方法及装置


[0001]本专利技术涉及仿真
,尤其涉及一种用于分布式AI集群的网络仿真方法及装置。

技术介绍

[0002]随着研究人员对大规模神经网络的训练需求不断提升,单机训练已无法满足训练需求,因此采用多机多卡分布式训练。现采用云服务商提供的大规模AI集群进行分布式神经网络训练,因此对数据中心的多租户AI集群的研究日渐受到关注。此外,随着GPU类专用设备的发展,训练的计算过程被大大提速,分布式神经网络训练的性能瓶颈已经逐渐转移到网络侧,因此对于多租户Al集群的网络侧研究也受到了大量研究者的关注。目前,对于数据中心网络的研究几乎都是在网络仿真平台上进行的,并且在搭建实际系统进行验证之前,也需要通过网络仿真的验证,因此,对于分布式Al集群的研究也不例外。
[0003]但是,目前网络仿真框架(例如omnet,ns3等)都是包级别或者流级别,均是针对通用用途的网络仿真,比如,对各种网络、各种任务的仿真。可以看出,由于包级别或者流级别的仿真粒度很细,直接仿真分布式Al集群十分复杂、不便。究其本质,目前网络本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于分布式AI集群的网络仿真方法,其特征在于,所述方法包括:响应于AI集群仿真平台触发的第一目标事件,所述第一目标事件利用任务生成算法生成分布式AI仿真任务;根据生成的分布式AI仿真任务,按照预设的任务分配算法,为所述分布式AI仿真任务分配包括GPU、网络链路在内的AI集群调度资源;根据生成的分布式AI仿真任务,按照预先配置的任务流生成算法将所述分布式AI仿真任务解析为若干条仿真任务流,并调用所述AI集群调度资源,利用任务流路由算法为每个仿真任务流配置执行仿真所需的路由信息;根据路由信息执行完成每条仿真任务流后,获取分布式AI仿真任务的测试数据。2.如权利要求1所述的用于分布式AI集群的网络仿真方法,其特征在于,所述AI集群仿真平台配置有若干数据接口,通过各所述数据接口获取包括任务生成算法、任务分配算法、任务流生成算法、任务流路由算法在内的自定义AI集群仿真信息。3.如权利要求1所述的用于分布式AI集群的网络仿真方法,其特征在于,所述AI集群调度资源包括GPU在内的计算资源、网络链路在内的网络资源。4.如权利要求1所述的用于分布式AI集群的网络仿真方法...

【专利技术属性】
技术研发人员:林圣凯赵世振曹培睿韩昕驰刘运卓
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1