一种AI平台的集群扩容异常处理方法技术

技术编号:25091166 阅读:60 留言:0更新日期:2020-07-31 23:35
本发明专利技术提供一种AI平台的集群扩容异常处理方法,包括如下步骤:S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;S2.AI平台接收到集群扩容请求后,执行适配测试脚本;S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。本发明专利技术对AI平台集群扩容时的待扩容节点进行检测,根据反馈结果降低扩容失败率,并在扩容失败后引入异常回滚策略,保持AI平台可用性。

【技术实现步骤摘要】
一种AI平台的集群扩容异常处理方法
本专利技术属于集群扩容
,具体涉及一种AI平台的集群扩容异常处理方法。
技术介绍
当集群资源不足时,需要对集群进行水平扩展,随着技术的发展,目前各个网站平台发展规模增长之后集群扩容在所难免。安装AI平台后也同样存在用户扩容需求,新扩展节点的配置默认与已有节点一致才会扩容成功,尽管需要用户对集群信息进行确认,但由于集群设备规模和运维实施人员失误等因素,还是会出现管理节点、计算节点基本信息不一致或者其他未知异常问题导致扩容失败。扩容失败会导致扩容进集群后机器无法正常使用,甚至影响集群中原有节点的正常工作;扩容过程中出现问题,虽然扩容进度列表记录异常日志,但需要运维人员定位扩容失败原因及手动解决问题,这个过程中AI平台无法正常提供服务。目前还缺少降低AI平台集群扩容失败率的有效手段。此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种AI平台的集群扩容异常处理方法,是非常有必要的。
技术实现思路
针对现有技术的上述缺少降低AI平台集群扩容失败率的有效手段的缺陷,本专利技术提供一种AI平台的集群扩容异常处理方法,以解决上述技术问题。第一方面,本专利技术提供一种AI平台的集群扩容异常处理方法,包括如下步骤:S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;S2.AI平台接收到集群扩容请求后,执行适配测试脚本;S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。进一步地,所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本。ansible脚本是基于phython的自动化运维工具。进一步地,步骤S3具体步骤如下:S31.配置适配测试脚本获取待扩容节点列表,并从待扩容节点列表中获取所有待扩容节点的IP信息,生成待扩容节点IP列表;S32.配置适配测试脚本遍历待扩容节点IP列表,获取每个待扩容节点的信息,并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求;若否,适配检测失败,定位待扩容节点的问题;若是,保存集群扩容前配置,启动扩容脚本进行集群扩容,进入步骤S33;S33.判断集群扩容是否成功;若否,进入步骤S4;若是,进入步骤S34;S34.AI平台集群提供正常集群服务。通过适配测试脚本在扩容之前对待扩容进AI平台集群的节点进行检测,及时发现待扩容节点的问题,降低扩容失败率。进一步地,步骤S32中,启动扩容脚本进行集群扩容通过如下步骤实现:配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。网络时钟互信保证两个节点之间时钟的同步,kubernetes集群通过标签来控制集群服务单元pod的位置,GPU标签打入即集群服务单元pod需要运行在配置了GPU的节点上。进一步地,所述待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息。待扩容节点信息包括但不限于上述内容,上述内容不一致,会导致AI平台集群扩容失败。进一步地,步骤S4具体步骤如下:S41.集群扩容失败,启动异常处理脚本;S42.异常处理脚本判断AI平台集群的各服务单元pod是否正常;若是,进入步骤S43;若否,进入步骤S44;S43.配置异常处理脚本判断是否需要恢复原有AI平台集群配置;若是,进入步骤S44;若否,返回步骤S34;S44.配置异常处理脚本根据集群扩容前配置恢复原有AI平台集群配置。扩容失败,且AI平台集群的各服务单元pod中存在异常时,必须要启动AI平台集群配置恢复;而扩容失败,但AI平台集群的各服务单元pod正常时,可以恢复原有集群配置,也可以不恢复。进一步地,步骤S43中,配置异常处理脚本获取测试人员的设置,根据测试人员的设置判断是否需要恢复原有AI平台集群配置。扩容失败,但AI平台集群的各服务单元pod正常时,不启动自动回滚,而又测试人员手动开启回滚操作。进一步地,步骤S44具体步骤如下:S441.AI平台集群存在异常的服务单元pod,且异常时长达到设定阈值,配置异常处理脚本进行异常回滚;S442.配置异常处理脚本将扩容节点列表中对应节点安装的数据采集工具组件、网络文件系统挂载以及集群环境进行卸载;S443.配置异常处理脚本获取集群扩容前配置,并更新到AI平台集群配置文件;S444.配置异常处理脚本重启容器组件,重启网络插件恢复节点通信,重启异常服务单元pod,直至AI平台的集群服务恢复正常。通过异常回滚即使扩容失败,也可保证AI平台可以正常运行。进一步地,步骤S444中,配置异常处理脚本定位一个异常服务单元pod进行重启,并判断AI平台集群服务是否恢复正常;若是,配置异常处理脚本停止异常回滚,返回步骤S34;若否,配置异常处理脚本定位到下一个异常服务单元pod进行重启。回滚操作的界限就是AI平台可以正常回滚操作为止,无需完全恢复原有的AI平台集群配置。进一步地,所述集群采用kubernetes集群,所述数据采集工具组件采用telegraf数据采集工具,所述网络插件采用calico网络插件;步骤S441中通过计时器计算服务单元pod的异常时长。本专利技术的有益效果在于,本专利技术提供的AI平台的集群扩容异常处理方法,对AI平台集群扩容时的待扩容节点进行检测,根据反馈结果降低扩容失败率,并在扩容失败后引入异常回滚策略,保持AI平台可用性。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的方法流程示意图一;图2是本专利技术的方法流程示意图二;图3为本专利技术的方法流程示意图三。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。实施例1:如图1本文档来自技高网
...

【技术保护点】
1.一种AI平台的集群扩容异常处理方法,其特征在于,包括如下步骤:/nS1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;/nS2.AI平台接收到集群扩容请求后,执行适配测试脚本;/nS3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;/nS4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。/n

【技术特征摘要】
1.一种AI平台的集群扩容异常处理方法,其特征在于,包括如下步骤:
S1.在AI平台设置适配测试脚本、扩容脚本和异常处理脚本;
S2.AI平台接收到集群扩容请求后,执行适配测试脚本;
S3.配置适配测试脚本检查待扩容节点是否符合集群节点要求,并在符合集群节点要求时,保存集群扩容前配置,启动扩容脚本进行集群扩容;
S4.当集群扩容失败时,配置异常处理脚本判断AI平台的集群服务是否可以正常运行,并在AI平台的集群服务不能正常运行时,根据集群扩容前配置恢复原有AI平台集群配置。


2.如权利要求1所述的AI平台的集群扩容异常处理方法,其特征在于,所述适配测试脚本、扩容脚本和异常处理脚本均采用ansible脚本。


3.如权利要求1所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S3具体步骤如下:
S31.配置适配测试脚本获取待扩容节点列表,并从待扩容节点列表中获取所有待扩容节点的IP信息,生成待扩容节点IP列表;
S32.配置适配测试脚本遍历待扩容节点IP列表,获取每个待扩容节点的信息,并与集群中现有节点信息进行比较判断是否符合AI平台安装的适配要求;
若否,适配检测失败,定位待扩容节点的问题;
若是,保存集群扩容前配置,启动扩容脚本进行集群扩容,进入步骤S33;
S33.判断集群扩容是否成功;
若否,进入步骤S4;
若是,进入步骤S34;
S34.AI平台集群提供正常集群服务。


4.如权利要求3所述的AI平台的集群扩容异常处理方法,其特征在于,步骤S32中,启动扩容脚本进行集群扩容通过如下步骤实现:
配置扩容脚本依次在待扩容节点安装网络时钟互信、网络文件系统挂载、GPU驱动、集群环境、数据采集工具组件以及GPU标签打入操作。


5.如权利要求3所述的AI平台的集群扩容异常处理方法,其特征在于,所待扩容节点信息包括密码、系统版本号、GPU类型、卡数、CPU核数以及内存信息。


6.如权利要求3所述的AI...

【专利技术属性】
技术研发人员:刘晓健
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1