System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种日志收集方法、装置、设备及可读存储介质。
技术介绍
1、在用于人工智能模型训练的云平台上,当前只能把模型训练任务的任务执行日志输出到指定的一个路径下面,但云平台中实际执行模型训练任务的资源实体的相关日志存在缺失。若模型训练任务执行过程中出现问题,仅基于任务执行日志难以进行问题定位。
2、因此,如何全面收集用于人工智能模型训练的云平台上的日志数据,是本领域技术人员需要解决的问题。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种日志收集方法、装置、设备及可读存储介质,以全面收集用于人工智能模型训练的云平台上的日志数据。其具体方案如下:
2、第一方面,本申请提供了一种日志收集方法,包括:
3、在云平台的管理节点中部署日志管理器;
4、在所述云平台的各个被管节点中部署日志采集器;
5、通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
6、通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
7、可选地,所述在云平台的管理节点中部署日志管理器,包括:
8、在所述管理节点部署所述日志管理器作为控制器;
9、为所述控制器配置所在的资源实体和命名空间,并将所述控制器和所述云平台进行日志管理服务的绑定;
11、依赖所述日志管理文件为所述控制器配置数据存储位置。
12、可选地,所述在所述云平台的各个被管节点中部署日志采集器,包括:
13、在每一被管节点部署所述日志采集器作为控制对象;
14、为所述控制对象配置所在的资源实体和命名空间,并将所述控制对象和所述云平台进行日志采集服务的绑定;
15、为所述控制对象配置日志采集文件;所述日志采集文件包括:采集频率和单次上报的数据大小;
16、为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
17、可选地,所述为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径之后,还包括:
18、将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使所述控制对象按照所述采集标签采集资源实体日志和模型训练日志。
19、可选地,还包括:
20、利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志。
21、可选地,所述利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志,包括:
22、接收日志查询请求;
23、提取所述日志查询请求中的查询关键字;所述查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;
24、在所述目的端查询与所述查询关键字匹配的资源实体日志和/或模型训练日志。
25、可选地,所述通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,包括:
26、按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;
27、将分类结果存储至所述目的端。
28、可选地,还包括:
29、通过分析目的端中的日志数据来定位模型训练任务中的错误信息和/或定位各个被管节点中用于执行模型训练任务的资源实体的故障。
30、第二方面,本申请提供了一种日志收集装置,包括:
31、第一部署模块,用于在云平台的管理节点中部署日志管理器;
32、第二部署模块,用于在所述云平台的各个被管节点中部署日志采集器;
33、采集模块,用于通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
34、存储模块,用于通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
35、可选地,所述第一部署模块具体用于:
36、在所述管理节点部署所述日志管理器作为控制器;
37、为所述控制器配置所在的资源实体和命名空间,并将所述控制器和所述云平台进行日志管理服务的绑定;
38、为所述控制器配置日志管理文件;所述日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;
39、依赖所述日志管理文件为所述控制器配置数据存储位置。
40、可选地,所述第二部署模块具体用于:
41、在每一被管节点部署所述日志采集器作为控制对象;
42、为所述控制对象配置所在的资源实体和命名空间,并将所述控制对象和所述云平台进行日志采集服务的绑定;
43、为所述控制对象配置日志采集文件;所述日志采集文件包括:采集频率和单次上报的数据大小;
44、为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
45、可选地,所述第二部署模块还用于:
46、将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使所述控制对象按照所述采集标签采集资源实体日志和模型训练日志。
47、可选地,还包括:
48、访问模块,用于利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志。
49、可选地,所述访问模块具体用于:
50、接收日志查询请求;
51、提取所述日志查询请求中的查询关键字;所述查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;
52、在所述目的端查询与所述查询关键字匹配的资源实体日志和/或模型训练日志。
53、可选地,所述存储模块具体用于:
54、按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;
55、将分类结果存储至所述目的端。
56、第三方面,本申请提供了一种电子设备,包括:
57、存储器,用于存储计算机程序;
58、处理器,用于执行所述计算机程序,以实现前述公开的日志收集方法。
59、第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的日志收集方法。
60、通过以上方案本文档来自技高网...
【技术保护点】
1.一种日志收集方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述在云平台的管理节点中部署日志管理器,包括:
3.根据权利要求1所述的方法,其特征在于,所述在所述云平台的各个被管节点中部署日志采集器,包括:
4.根据权利要求3所述的方法,其特征在于,所述为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径之后,还包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,其特征在于,所述利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志,包括:
7.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,包括:
8.一种日志收集装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种可读存储介质,其特征在于,用于保存计算机程序,其
...【技术特征摘要】
1.一种日志收集方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述在云平台的管理节点中部署日志管理器,包括:
3.根据权利要求1所述的方法,其特征在于,所述在所述云平台的各个被管节点中部署日志采集器,包括:
4.根据权利要求3所述的方法,其特征在于,所述为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径之后,还包括:
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
6.根据权利要求5所述的方法,...
【专利技术属性】
技术研发人员:徐如庆,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。