【技术实现步骤摘要】
本专利技术涉及智算运维领域,具体来说是一种智算运维可视化的一体机及其部署架构系统。
技术介绍
1、随着ai大模型的火爆,智算行业里越来越多的科技公司陆续推出千亿、万亿参数规模的大模型,而且大模型参数规模还在不断扩大。与此同时智算中心的智算集群规模也越来越大(千卡集群、万卡集群),其数据量和复杂度呈指数级增长,还有复杂多样的智算行业应用场景(文本、图像、视频、多模态等),而传统数据中心运维手段已经无法满足智算中心集群实高效运维的要求,这就给智算中心的运维带来了严峻的考验。急需要高效运维、快速故障诊断、可定制化、实时分析和监控的智算运维可视化的解决方案。
2、目前智算运维可视化行业里面的做法和方案尚存在诸多不足,一般常见的做法是采用纯软件的解决方案,要么自研可视化运维平台(如datadog、dynatrace等应用程序性能监控和可观测性相结合的aiops平台厂家)或者是采用集成第三方数据可视化工具(如tableau、power bi等数据分析bi工具)。尽管这种纯软件的做法和方案在一定程度上可以提升智算运维可视化的水平,但需要投
...【技术保护点】
1.一种智算运维可视化的一体机,其特征在于包括
2. 如权利要求1所述的一种智算运维可视化的一体机,其特征在于还包括智算运维可视化管理平台,该平台主要包括智算业务数据可视化展现、云原生开源中间件与业务定制组件或插件的适配和集成、智算集群运维管理,并对外提供服务化open API和SDK能力。
3.一种如权利要求1或2所述智算运维可视化一体机的部署架构系统,其特征在于通过智算业务功能或者服务划分和联邦机制相结合的方法,将智算业务数据的采集任务划分到不同的Prometheus实例中,由顶层Prometheus实例进行对下层Prometheus实例的
...【技术特征摘要】
1.一种智算运维可视化的一体机,其特征在于包括
2. 如权利要求1所述的一种智算运维可视化的一体机,其特征在于还包括智算运维可视化管理平台,该平台主要包括智算业务数据可视化展现、云原生开源中间件与业务定制组件或插件的适配和集成、智算集群运维管理,并对外提供服务化open api和sdk能力。
3.一种如权利要求1或2所述智算运维...
【专利技术属性】
技术研发人员:顾海东,
申请(专利权)人:上海恒为智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。