一种基于分布式系统的机器学习程序运行的方法和装置制造方法及图纸

技术编号:19216105 阅读:17 留言:0更新日期:2018-10-20 06:51
本发明专利技术公开了一种基于分布式系统的机器学习程序运行的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源;根据所述资源中服务器节点的端口信息和标识信息,生成启动参数;将所述机器学习程序以及所述启动参数发送给对应的服务器节点,使得所述服务器节点启动运行所述机器学习程序。能够根据用户提交的运行请求自动获取资源,并根据获取资源的服务器节点的端口信息和标识信息,生成启动参数,则可通过该启动参数对应的启动服务器节点自动运行机器学习程序,提高了机器学习程序运行的效率。

【技术实现步骤摘要】
一种基于分布式系统的机器学习程序运行的方法和装置
本专利技术涉及计算机
,尤其涉及一种基于分布式系统的机器学习程序运行的方法和装置。
技术介绍
如今,在很多领域都有应用到机器学习或者深度学习,例如图像识别、语音识别、自动驾驶等领域。目前比较流行的深度学习框架有Tensorflow、Caffe等,使用这些框架进行分布式处理时,需要人为登录到每台服务器,将待运行的机器学习程序拷贝到该服务器中,以及人工启动程序在该服务器中运行,进而存在运行效率低的问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种基于分布式系统的机器学习程序运行的方法和装置,能够根据用户提交的运行请求自动获取资源,并根据获取资源的服务器节点的端口信息和标识信息,生成启动参数,则可通过该启动参数对应的启动服务器节点自动运行机器学习程序,提高了机器学习程序运行的效率。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种的基于分布式系统的机器学习程序运行方法。本专利技术实施例的基于分布式系统的机器学习程序运行的方法包括:根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源;根据所述资源中服务器节点的端口信息和标识信息,生成启动参数;将所述机器学习程序以及所述启动参数发送给对应的服务器节点,使得所述服务器节点启动运行所述机器学习程序。可选地,根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源的步骤包括:根据机器学习程序的运行请求,确定出运行所述机器学习程序所需的资源;向分布式系统的资源管理器申请所需的资源;以及,获取所述资源管理器返回的资源。可选地,在获取分布式系统中用于运行所述机器学习程序的资源之后,以及在根据所述资源中服务器节点的端口信息和标识信息,生成启动参数之前,还包括:确认获取的资源中服务器节点已就绪;向所述资源中服务器节点的任务管理器发送启动信息,使得所述任务管理器绑定其服务器节点的端口。可选地,在将所述机器学习程序以及所述启动参数发送给对应的服务器节点之后,还包括:接收所述服务器节点返回的心跳信息;根据所述心跳信息,判断所述服务器节点中是否存在异常服务器节点;如果存在,则根据该异常服务器节点的端口信息和标识信息生成重启参数,将所述重启参数发送给所述异常服务器。可选地,在将所述机器学习程序以及所述启动参数发送给对应的服务器节点之后,还包括:获取所有服务器节点的运行数据;根据预设的存储路径存储所述运行数据。为实现上述目的,根据本专利技术实施例的另一个方面,提供了一种基于分布式系统的机器学习程序运行的装置。本专利技术实施例的基于分布式系统的机器学习程序运行的装置包括:资源获取模块,用于根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源;启动参数生成模块,用于根据所述资源中服务器节点的端口信息和标识信息,生成启动参数;发送模块,用于将所述机器学习程序以及所述启动参数发送给对应的服务器节点,使得所述服务器节点启动运行所述机器学习程序。可选地,所述资源获取模块,还用于根据机器学习程序的运行请求,确定出运行所述机器学习程序所需的资源;向分布式系统的资源管理器申请所需的资源;以及,获取所述资源管理器返回的资源。可选地,本专利技术实施例的基于分布式系统的机器学习程序运行的装置还包括:节点任务管理器启动模块,用于确认获取的资源中服务器节点已就绪;向所述资源中服务器节点的任务管理器发送启动信息,使得所述任务管理器绑定其服务器节点的端口。可选地,本专利技术实施例的基于分布式系统的机器学习程序运行的装置还包括:容错模块,用于接收所述服务器节点返回的心跳信息;根据所述心跳信息,判断所述服务器节点中是否存在异常服务器节点;如果存在,则启动参数生成模块根据该异常服务器节点的端口信息和标识信息生成重启参数,发送模块将所述重启参数发送给所述异常服务器。可选地,本专利技术实施例的基于分布式系统的机器学习程序运行的装置还包括:存储模块,用于获取所有服务器节点的运行数据;根据预设的存储路径存储所述运行数据。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种基于分布式系统的机器学习程序运行的电子设备。本专利技术实施例的基于分布式系统的机器学习程序运行的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一项的基于分布式系统的机器学习程序运行的方法。为实现上述目的,根据本专利技术实施例的再一个方面,提供了一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述任一项的基于分布式系统的机器学习程序运行的方法。上述专利技术中的一个实施例具有如下优点或有益效果:能够根据用户的运行请求申请到资源,并根据获取资源的服务器节点的端口信息和标识信息,生成启动参数,则可通过该启动参数对应的启动服务器节点自动运行机器学习程序。进而,提高了系统运行效率。并且,对获取到的资源进行锁定,避免了在多用户的情况下,发送资源冲突的问题。本专利技术实施例还能够根据各个服务器节点返回的心跳数据对异常节点进行监控,如果出现异常节点,则可自动容错,提高了机器学习程序的稳定性和成功率。对于运行的数据进行存储,便于快速查询机器学习程序运行时的状态与日志,也可便于对历史运行的任务进行查询。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的基于分布式系统的机器学习程序运行的方法的主要流程的示意图;图2是根据本专利技术实施例的实现Hadoop集群运行深度学习程序的系统的示意图;图3是根据本专利技术实施例的端口预留过程的示意图;图4是根据本专利技术实施例的容错过程的示意图;图5是根据本专利技术实施例的历史信息索引页的示意图;图6是根据本专利技术实施例的历史信息详情页的示意图;图7是根据本专利技术实施例基于分布式系统的机器学习程序运行的装置的主要模块的示意图;图8是本专利技术实施例可以应用于其中的示例性系统架构图;图9是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术实施例的基于分布式系统的机器学习程序运行的方法的主要流程的示意图,如图1所示,本专利技术实施例的基于分布式系统的机器学习程序运行的方法主要包括:步骤S101:根据机器学习程序的运行请求,获取分布式系统中用于运行机器学习程序的资源。具体的,根据机器学习程序的运行请求,确定出运行机器学习程序所需的资源;向分布式系统的资源管理器申请所需的资源;以及,获取资源管理器返回的资源。其中,该运行请求中包括该机器学习程序的相关参数,该参数至少包括需要的参数服务器parameterserver的个数和需要的执行服务器worker的个数,该参数还可以包括运行系统资源管理器需要的内存量、作业名、是否启用t本文档来自技高网...

【技术保护点】
1.一种基于分布式系统的机器学习程序运行的方法,其特征在于,包括:根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源;根据所述资源中服务器节点的端口信息和标识信息,生成启动参数;将所述机器学习程序以及所述启动参数发送给对应的服务器节点,使得所述服务器节点启动运行所述机器学习程序。

【技术特征摘要】
1.一种基于分布式系统的机器学习程序运行的方法,其特征在于,包括:根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源;根据所述资源中服务器节点的端口信息和标识信息,生成启动参数;将所述机器学习程序以及所述启动参数发送给对应的服务器节点,使得所述服务器节点启动运行所述机器学习程序。2.根据权利要求1所述的方法,其特征在于,根据机器学习程序的运行请求,获取分布式系统中用于运行所述机器学习程序的资源的步骤包括:根据机器学习程序的运行请求,确定出运行所述机器学习程序所需的资源;向分布式系统的资源管理器申请所需的资源;以及,获取所述资源管理器返回的资源。3.根据权利要求1所述的方法,其特征在于,在获取分布式系统中用于运行所述机器学习程序的资源之后,以及在根据所述资源中服务器节点的端口信息和标识信息,生成启动参数之前,还包括:确认获取的资源中服务器节点已就绪;向所述资源中服务器节点的任务管理器发送启动信息,使得所述任务管理器绑定其服务器节点的端口。4.根据权利要求1所述的方法,其特征在于,在将所述机器学习程序以及所述启动参数发送给对应的服务器节点之后,还包括:接收所述服务器节点返回的心跳信息;根据所述心跳信息,判断所述服务器节点中是否存在异常服务器节点;如果存在,则根据该异常服务器节点的端口信息和标识信息生成重启参数,将所述重启参数发送给所述异常服务器。5.根据权利要求1所述的方法,其特征在于,在将所述机器学习程序以及所述启动参数发送给对应的服务器节点之后,还包括:获取所有服务器节点的运行数据;根据预设的存储路径存储所述运行数据。6.一种基于分布式系统的机器学习程序运行的装置,其特征在于,包括:资源获取模块,用于根据...

【专利技术属性】
技术研发人员:吴怡燃
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1