【技术实现步骤摘要】
用于监视软件应用程序进程的系统和方法
本公开总体上涉及监视软件应用程序的进程。
技术介绍
计算服务器可以运行软件应用程序以提供服务。软件应用程序可能由于各种原因而停止,比如堆栈溢出、网络或电力中断或其他意外中断。在软件应用程序停止与系统管理员确定软件应用程序已经停止之间可能存在延迟。在系统管理员检测到软件应用程序已经停止与系统管理员重新启动软件应用程序之间也可能存在延迟。重新启动软件应用程序的延迟增加了服务不可用的停用时间。由系统管理员对软件应用程序进行连续监视则会不方便且昂贵。
技术实现思路
在具体实现方式中,一种用于监视进程的系统包括:多个计算节点中的第一计算节点,多个计算节点被配置为运行软件应用程序的多个实例。该系统还包括多个计算节点中的第二计算节点。第一计算节点包括进程监视器、状态数据分析器、进程监视器检查器以及对等方监视器。进程监视器被配置为为在第一计算节点运行的软件应用程序的第一实例生成进程状态数据。状态数据分析器被配置为基于进程状态数据,确定软件应用程序的第一实例的预期进程是否已经在第一计算节点停止运行。状态数据分析器还被配置为基于确定预期进程已经在第一计算节点停止运行,选择性地重启软件应用程序的第一实例。进程监视器检查器被配置为确定进程监视器是否正在第一计算节点运行。进程监视器检查器还被配置为响应于确定进程监视器已经在第一计算节点停止运行,重启进程监视器。对等方监视器被配置为确定软件应用程序的第二实例是否在多个计算节点中的第二计算节点失败。对等方监视器还被配置为响应于确定第二实例在 ...
【技术保护点】
1.一种用于监视进程的系统(100),所述系统包括:/n多个计算节点(102、104、106)中的第一计算节点(102),所述多个计算节点(102、104、106)被配置为运行软件应用程序(122)的多个实例(160、162),所述第一计算节点(102)包括:/n进程监视器(140),被配置为生成在所述第一计算节点(102)运行的所述软件应用程序(122)的第一实例(160)的进程状态数据(105);/n状态数据分析器(146),被配置为:/n基于所述进程状态数据(105),确定所述软件应用程序(122)的所述第一实例(160)的预期进程(107)是否已经在所述第一计算节点(102)停止运行;以及/n基于确定所述预期进程(107)已经在所述第一计算节点(102)停止运行,选择性地重启所述软件应用程序(122)的所述第一实例(160);/n进程监视器检查器(142),被配置为:/n确定所述进程监视器(140)是否已经在所述第一计算节点(102)停止运行;以及/n响应于确定所述进程监视器(140)已经在所述第一计算节点(102)停止运行,重启所述进程监视器(140);以及/n对等方监视器( ...
【技术特征摘要】
20181220 US 16/227,9911.一种用于监视进程的系统(100),所述系统包括:
多个计算节点(102、104、106)中的第一计算节点(102),所述多个计算节点(102、104、106)被配置为运行软件应用程序(122)的多个实例(160、162),所述第一计算节点(102)包括:
进程监视器(140),被配置为生成在所述第一计算节点(102)运行的所述软件应用程序(122)的第一实例(160)的进程状态数据(105);
状态数据分析器(146),被配置为:
基于所述进程状态数据(105),确定所述软件应用程序(122)的所述第一实例(160)的预期进程(107)是否已经在所述第一计算节点(102)停止运行;以及
基于确定所述预期进程(107)已经在所述第一计算节点(102)停止运行,选择性地重启所述软件应用程序(122)的所述第一实例(160);
进程监视器检查器(142),被配置为:
确定所述进程监视器(140)是否已经在所述第一计算节点(102)停止运行;以及
响应于确定所述进程监视器(140)已经在所述第一计算节点(102)停止运行,重启所述进程监视器(140);以及
对等方监视器(150),被配置为:
确定所述软件应用程序(122)的第二实例(162)是否在所述多个计算节点(102、104、106)中的第二计算节点(104)失败;以及
响应于确定所述第二实例(162)在所述第二计算节点(104)失败,基于与所述软件应用程序(122)的所述第二实例(162)关联的未完成任务(109),执行动作(128);以及
所述第二计算节点(104)。
2.如权利要求1所述的系统(100),其中,所述进程监视器(140)还包括进程监视器检查器验证器(144),被配置为:
确定所述进程监视器检查器(142)是否已经在所述第一计算节点(102)停止运行;以及
响应于确定所述进程监视器检查器(142)已经在所述第一计算节点(102)停止运行,重启所述进程监视器检查器(142)。
3.如权利要求1或2所述的系统(100),其中,所述第一计算节点(102)还包括对等方监视器检查器(152),被配置为:
确定所述对等方监视器(150)是否已经在所述第一计算节点(102)停止运行;以及
响应于确定所述对等方监视器(150)已经在所述第一计算节点(102)停止运行,重启所述对等方监视器(150),
其中,所述对等方监视器(150)包括对等方监视器检查器验证器(154),被配置为:
确定所述对等方监视器检查器(152)是否已经在所述第一计算节点(102)停止运行;以及
响应于确定所述对等方监视器检查器(152)已经在所述第一计算节点(102)停止运行,重启所述对等方监视器检查器(152)。
4.如权利要求1或2所述的系统(100),其中,响应于确定所述预期进程(107)已经在所述第一计算节点(102)停止运行,所述状态数据分析器(146)被配置为:
确定是否满足应用程序重启标准(111);以及
响应于确定满足所述应用程序重启标准(111),在所述第一计算节点(102)重启所述软件应用程序(122)的所述第一实例(160);并且其中,所述状态数据分析器(146)被配置为:
基于所述进程状态数据(105),确定在第一时间(513)检测到所述预期进程(107)在所述第一计算节点(102)未运行;
确定所述第一时间(513)与启动时间(511)之间的差是否大于或等于时间阈值(515),其中,所述启动时间(511)指示所述预期进程(107)先前在所述第一计算节点(102)启动的时间;
响应于确定所述差大于或等于所述时间阈值(515),重置失败计数器(517);
基于所述失败计数器(517),确定是否满足所述应用程序重启标准(111);
确定所述失败计数器(517)是否大于或等于失败计数阈值(519);以及
响应于确定所述失败计数器(517)小于所述失败计数阈值(519),确定满足所述应用程序重启标准(111)。
5.如权利要求4所述的系统(100),其中,所述状态数据分析器(146)被配置为响应于确定所述失败计数器(517)大于或等于所述失败计数阈值(519),确定不满足所述应用程序重启标准(111)。
6.如权利要求4所述的系统(100),其中,所述状态数据分析器(146)被配置为响应于确定不满足所述应用程序重启标准(111),进行以下中的至少一个:禁止在所述第一计算节点(102)重启所述软件应用程序(122)的所述第一实例(160)以及停止所述进程监视器(140)、所述进程监视器检查器(142)和所述对等方监视器(150)在所述第一计算节点(102)运行。
7.如权利要求4所述的系统(100),还包括:集群管理设备(110)和存储设备(108),其中,所述状态数据分析器(146)被配置为响应于确定不满足所述应用程序重启标准(111),向用户设备(112)发送第一通知(153)、向所述集群管理设备(110)发送第二通知(151)、向所述多个计算节点(102、104、106)中的第三计算节点(106)发送第三通知(157)、更新所述存储设备(108)中的日志数据(131)以指示所述软件应用程序(122)在所述第一计算节点(102)关闭、或它们的组合。
<...
【专利技术属性】
技术研发人员:詹姆斯·J·特洛伊,布鲁斯·马文·克雷格,
申请(专利权)人:波音公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。