一种基于人工智能的数据中心运维管理方法及管理系统技术方案

技术编号:45780205 阅读:20 留言:0更新日期:2025-07-11 19:57
本申请涉及数据中心运维管理技术领域,尤其是涉及一种基于人工智能的数据中心运维管理方法,其包括协议特征动态学习模块、时序编排优化模块、级联失效防护模块及多模态异常自愈模块。通过动态更新协议知识库、生成最优指令序列、预测功耗传导路径及生成增量式回滚方案,解决异构设备固件升级中的系统性失效问题。本申请能够智能化协调指令、预测风险并实现异常自愈,显著提升数据中心运维的稳定性和效率。

【技术实现步骤摘要】

本专利技术属于数据中心运维管理,具体为一种基于人工智能的数据中心运维管理方法及管理系统


技术介绍

1、随着数据中心的规模化发展,现代数据中心普遍采用多品牌服务器的混合架构,以在成本与性能之间实现平衡。然而,在固件升级等关键运维场景中,各厂商基板管理控制器(bmc)对redfish协议的私有扩展实现差异已成为制约运维自动化的重大技术瓶颈。主流厂商(如惠普ilo、戴尔idrac和浪潮bmc)在实现redfish协议时,普遍引入了私有指令集和响应时序逻辑,例如,ilo v2.3要求在发送firmwareupdate指令前必须插入300±50ms的电源策略协商窗口,而idrac v4.2则强制要求固件传输阶段保持持续心跳包(间隔≤2秒)。这种毫秒级的时序差异导致同一批升级操作中不同品牌设备的状态机产生不可控偏移,显著增加了运维复杂性。

2、此外,当异构设备升级时序错位超过电源分配单元(pdu)的同步容错窗口(通常为200-500ms)时,会引发电源策略的雪崩式失效。典型案例表明,在混合机柜(含hp/dell/inspur设备各10台)中执行全量升级时本文档来自技高网...

【技术保护点】

1.一种基于人工智能的数据中心运维管理方法,其特征在于:所述运维管理方法包括协议特征动态学习模块、时序编排优化模块、级联失效防护模块以及多模态异常自愈模块;

2.根据权利要求1所述的基于人工智能的数据中心运维管理方法,其特征在于:所述协议特征动态学习模块中设置强化学习代理,利用强化学习代理与多厂商基板管理控制器进行交互,当检测到新型协议扩展特征时,强化学习代理自动提取其时序逻辑并更新协议知识库,同时生成动态缓冲时间建议传输至时序编排优化模块。

3.根据权利要求1所述的基于人工智能的数据中心运维管理方法,其特征在于:所述时序编排优化模块包括毫秒级卷积分支、秒级卷积分...

【技术特征摘要】

1.一种基于人工智能的数据中心运维管理方法,其特征在于:所述运维管理方法包括协议特征动态学习模块、时序编排优化模块、级联失效防护模块以及多模态异常自愈模块;

2.根据权利要求1所述的基于人工智能的数据中心运维管理方法,其特征在于:所述协议特征动态学习模块中设置强化学习代理,利用强化学习代理与多厂商基板管理控制器进行交互,当检测到新型协议扩展特征时,强化学习代理自动提取其时序逻辑并更新协议知识库,同时生成动态缓冲时间建议传输至时序编排优化模块。

3.根据权利要求1所述的基于人工智能的数据中心运维管理方法,其特征在于:所述时序编排优化模块包括毫秒级卷积分支、秒级卷积分支以及量子退火求解器;所述毫秒级卷积分支用于提取短时敏感操作特征,所述秒级卷积分支用于捕捉长时依赖关系,所述量子退火求解器通过映射设备操作时序组合优化问题,求解最小化电源分配单元负载波动方差的最优指令序列。

4.根据权利要求3所述的基于人工智能的数据中心运维管理方法,其特征在于:所述量子退火求解器通过以下公式求解最小化电源分配单元负载波动方差的最优指令序列:

5.根据权利要求1所述的基于人工智能的数据中心运维管理方法,其特征在于:所述级联失效防护模块中设置时空图注意力网络,利用时空图注意力网络输入设备固件特征和电路拓扑结构,时空图注意力网络的时间滑动窗口...

【专利技术属性】
技术研发人员:王庆德
申请(专利权)人:广东灵顿智链信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1