System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种应用于AI大模型的智算中心系统技术方案_技高网

一种应用于AI大模型的智算中心系统技术方案

技术编号:40908469 阅读:2 留言:0更新日期:2024-04-18 14:38
本发明专利技术提供的一种应用于AI大模型的智算中心系统,所述智算中心系统包括:算力基础设施、融合云底座、软件定义网络控制器、算力调度平台;所述算力基础设施通过硬件重构实现资源池化,为上层应用提供分布式的算力服务,并利用新型超高速内外部互连技术,实现异构计算芯片的融合;所述融合云底座,基于OpenStack和Kubernetes进行组合优化;所述软件定义网络控制器负责提供融合云底座网络设备的管理,通过标准化RESTful接口与云平台无缝对接;所述算力调度平台,用于面向AI训练场景和图形视频渲染场景,整合异构计算资源、存储资源以及网络资源。采用智能化调度算法实时调度使用资源,提高资源利用效率。

【技术实现步骤摘要】

本专利技术涉及人工智能计算中心领域,尤其涉及一种应用于ai大模型的智算中心系统。


技术介绍

1、近年来,随着chat gpt(chat generative pre-trained transformer,生成式预训练聊天机器人)等生成式人工智能的火爆,推动了ai大模型在自然语言处理、生物医药、机器视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新的机遇。ai大模型的训练与推理严重依赖于以gpu(graphics processing unit,图形处理单元)为代表的底层算力基础设施,以gpt3.5为例,其训练过程依赖于专门建设的人工智能计算中心(下文简称为智算中心),即由一万个英伟达v100gpu组成的高性能计算集群,其总计算力消耗约为3640pf-days。在这种情况下,寻求提供极致高性能智算中心已成为人工智能领域的重要研究方向之一。

2、在我国,智算中心建设已成为新基建的重要组成部分,并且已在全国范围内建成或正在建设多个国家级重要节点。当前,智算中心建设过程中采用的主要软硬件仍被以英伟达为代表的国外厂商所垄断。本技术方案的提出,旨在实现部分或全部的国产化替代,真正实现智算中心的自主可控、安全可信。


技术实现思路

1、鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种应用于ai大模型的智算中心系统。

2、根据本专利技术的一个方面,提供了一种应用于ai大模型的智算中心系统,所述智算中心系统包括:算力基础设施、融合云底座、软件定义网络控制器、算力调度平台;

3、所述算力基础设施通过硬件重构实现资源池化,为上层应用提供分布式的算力服务,并利用新型超高速内外部互连技术,实现异构计算芯片的融合;

4、所述融合云底座,基于openstack和kubernetes进行组合优化,实现对异构的物理及虚拟化资源的高效管理,形成计算、存储、网络资源池;

5、所述软件定义网络控制器负责提供融合云底座网络设备的管理,通过标准化restful接口与云平台无缝对接,实现云场景多租户虚拟网络;

6、所述算力调度平台,用于面向ai训练场景和图形视频渲染场景,整合异构计算资源、存储资源以及网络资源,实现资源统一分配调度。

7、可选的,所述算力基础设施具体包括:

8、中央处理单元cpu、gpu、专用集成芯片asic、现场可编程门阵列fpga、神经网络处理单元npu各类通用或专用芯片、内存、本地存储组成的服务器、存储设备、网络设备及安全设备。

9、可选的,所述智算中心系统还包括:服务模型、监控运维平台、运营管理平台和安全防护平台。

10、可选的,所述融合云底座基于openstack和kubernetes进行组合优化,实现对异构的物理及虚拟化资源的高效管理。

11、可选的,所述软件定义网络控制器,用于提供融合云底座网络设备的管理,通过标准化restful接口与云平台无缝对接,实现云场景多租户虚拟网络;

12、采用网络的自动化部署,满足虚拟可扩展局域网组网模式下的网络自动化编排。

13、可选的,所述算力调度平台为面向裸机、虚拟化或容器资源的调度平台,面向ai训练场景和图形视频渲染场景,整合异构计算资源、存储资源以及网络资源,实现资源统一分配调度。

14、可选的,所述服务模型采用maas模型服务,为一种类云计算服务的新型ai商业模式,将ai大模型变成可服务化的产品,具体包括:模型管理模块、数据管理模块及训练流程管理模块。

15、可选的,所述maas模型服务还包括常用ai框架、预训练模型和ai工作流程,工作流使用ai框架和预训练模型以及helm、notebooks组装成云原生微服务;

16、maas模型服务通过对特定行业数据提取、清洗、标注,形成行业数据集,应用所述行业数据集对预训练ai大模型进行训练、推理和优化,形成具有成熟度的行业大模型,并通过maas模型服务实现一键部署,为行业提供精准的行业大模型。

17、可选的,所述监控运维平台负责监控和运维各类硬件设备运行状态及计算、存储、网络资源的使用情况,提供资源监控、组件监控、性能监控、告警管理的功能;

18、所述监控平台集成prometheus监控系统,提供对硬件设备、虚拟计算资源、存储资源、容器集群以及服务组件的监控、告警、日志一站式监控。

19、可选的,所述运营管理平台提供定制化的运营门户,提供自助服务门户、账号及权限管理、gpu裸机、云主机、云硬盘、流量、容器的自助申请;租户的支付、计费、账单和订单管理;提供管理方的资费定价管理。

20、本专利技术提供的一种应用于ai大模型的智算中心系统,所述智算中心系统包括:算力基础设施、融合云底座、软件定义网络控制器、算力调度平台;所述算力基础设施通过硬件重构实现资源池化,为上层应用提供分布式的算力服务,并利用新型超高速内外部互连技术,实现异构计算芯片的融合;所述融合云底座,基于openstack和kubernetes进行组合优化,实现对异构的物理及虚拟化资源的高效管理,形成计算、存储、网络资源池;所述软件定义网络控制器负责提供融合云底座网络设备的管理,通过标准化restful接口与云平台无缝对接,实现云场景多租户虚拟网络;所述算力调度平台,用于面向ai训练场景和图形视频渲染场景,整合异构计算资源、存储资源以及网络资源,实现资源统一分配调度。采用智能化调度算法实时调度使用资源,提高资源利用效率,保障资源的可靠、稳定、安全供给。

21、上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种应用于AI大模型的智算中心系统,其特征在于,所述智算中心系统包括:算力基础设施、融合云底座、软件定义网络控制器、算力调度平台;

2.根据权利要求1所述的一种应用于AI大模型的智算中心系统,其特征在于,所述算力基础设施具体包括:

3.根据权利要求1所述的一种应用于AI大模型的智算中心系统,其特征在于,所述智算中心系统还包括:服务模型、监控运维平台、运营管理平台和安全防护平台。

4.根据权利要求1所述的一种应用于AI大模型的智算中心系统,其特征在于,所述融合云底座基于OpenStack和Kubernetes进行组合优化,实现对异构的物理及虚拟化资源的高效管理。

5.根据权利要求1所述的一种应用于AI大模型的智算中心系统,其特征在于,所述软件定义网络控制器,用于提供融合云底座网络设备的管理,通过标准化RESTful接口与云平台无缝对接,实现云场景多租户虚拟网络;

6.根据权利要求1所述的一种应用于AI大模型的智算中心系统,其特征在于,所述算力调度平台为面向裸机、虚拟化或容器资源的调度平台,面向AI训练场景和图形视频渲染场景,整合异构计算资源、存储资源以及网络资源,实现资源统一分配调度。

7.根据权利要求3所述的一种应用于AI大模型的智算中心系统,其特征在于,所述服务模型采用MaaS模型服务,为一种类云计算服务的新型AI商业模式,将AI大模型变成可服务化的产品,具体包括:模型管理模块、数据管理模块及训练流程管理模块。

8.根据权利要求7所述的一种应用于AI大模型的智算中心系统,其特征在于,所述MaaS模型服务还包括常用AI框架、预训练模型和AI工作流程,工作流使用AI框架和预训练模型以及Helm、Notebooks组装成云原生微服务;

9.根据权利要求3所述的一种应用于AI大模型的智算中心系统,其特征在于,所述监控运维平台负责监控和运维各类硬件设备运行状态及计算、存储、网络资源的使用情况,提供资源监控、组件监控、性能监控、告警管理的功能;

10.根据权利要求3所述的一种应用于AI大模型的智算中心系统,其特征在于,所述运营管理平台提供定制化的运营门户,提供自助服务门户、账号及权限管理、GPU裸机、云主机、云硬盘、流量、容器的自助申请;租户的支付、计费、账单和订单管理;提供管理方的资费定价管理。

...

【技术特征摘要】

1.一种应用于ai大模型的智算中心系统,其特征在于,所述智算中心系统包括:算力基础设施、融合云底座、软件定义网络控制器、算力调度平台;

2.根据权利要求1所述的一种应用于ai大模型的智算中心系统,其特征在于,所述算力基础设施具体包括:

3.根据权利要求1所述的一种应用于ai大模型的智算中心系统,其特征在于,所述智算中心系统还包括:服务模型、监控运维平台、运营管理平台和安全防护平台。

4.根据权利要求1所述的一种应用于ai大模型的智算中心系统,其特征在于,所述融合云底座基于openstack和kubernetes进行组合优化,实现对异构的物理及虚拟化资源的高效管理。

5.根据权利要求1所述的一种应用于ai大模型的智算中心系统,其特征在于,所述软件定义网络控制器,用于提供融合云底座网络设备的管理,通过标准化restful接口与云平台无缝对接,实现云场景多租户虚拟网络;

6.根据权利要求1所述的一种应用于ai大模型的智算中心系统,其特征在于,所述算力调度平台为面向裸机、虚拟化或容器资源的调度平台,面向ai训练场景和图形视频渲染场景,整合异构计算资源...

【专利技术属性】
技术研发人员:胡卫国
申请(专利权)人:浙江九州未来信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1