System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向Serverless机器学习模型训练的动态可伸缩数据共享系统技术方案_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

面向Serverless机器学习模型训练的动态可伸缩数据共享系统技术方案

技术编号:41251406 阅读:3 留言:0更新日期:2024-05-09 23:59
本发明专利技术公开一种面向Serverless机器学习模型训练的动态可伸缩数据共享系统,通过共享数据集描述API、协调服务装置、数据分片路由装置、数据分片共享装置和数据共享SDK等关键组件,实现对机器学习模型训练任务中数据共享的高效和灵活管理。用户可利用共享数据集描述API创建和管理数据集,协调服务装置负责整个数据集的生命周期管理,数据分片路由装置为训练任务提供数据共享服务,同时通过动态分片树结构实现分片范围和实例数量的动态调整。数据分片共享装置结合领域特定的缓存淘汰策略—最长采样距离(LSD)优化数据缓存,以提高共享效率。数据共享SDK通过并行异步预取机制,在不影响正常训练过程的情况下,提升数据访问速度。

【技术实现步骤摘要】

本专利技术涉及一种面向serverless 机器学习模型训练的动态可伸缩数据共享系统,属于软件维护。


技术介绍

1、serverless计算,又称服务器无感知计算,是一种新兴的云计算模型,通过将函数作为计算的基本单元,这种模型为开发者提供了一种高效、简洁的业务逻辑实现方式。其核心的优势在于按需使用和无需运维的特性。开发者只需要专注于代码逻辑部分,而无需担心底层资源的配置和管理。正是这些特点,使得serverless计算成为未来云应用开发的一个关键趋势。

2、serverless 机器学习模型训练是serverless 计算模式上的一个自然应用,它指的是在 serverless 环境中进行机器学习模型的训练任务。这种模式与传统的机器学习模型训练服务集群相比,主要优势在于能够按需使用gpu计算资源,这不仅降低了前期的服务器和显卡购置成本,还能够随着业务需求的增长而灵活扩展。针对于资源有限或希望敏捷应当市场变化的中小企业而言,是一个极具吸引力的解决方案。

3、然而,将机器学习模型训练任务迁移到serverless环境也带来了若干挑战。其中一个显著的挑战是,由于serverless 机器学习模型训练经常采用存算分离的架构——将数据集储存于远程对象存储服务(如s3),在训练时再动态获取数据集的元信息和所需的训练样本——导致训练过程中的数据访问速度较慢。此外,现有的对象存储服务并未针对机器学习模型训练场景进行特别优化。

4、另一个挑战在于serverless 机器学习模型训练的分布式特性和按需使用的需求。

5、已有一些工作利用如redis、memcached这样的中间件服务为serverless应用提供缓存服务。然而,这些方案并没有充分考虑到机器学习模型训练的特定负载特性,例如随机采样序列的可预测性,导致数据共享效率并不高。另外一些工作则是针对传统机器学习模型训练服务集群设计了数据共享机制,并对集群做了底层适配优化。但这些方案并未考虑到serverless平台的特点,如函数按需分配、实例较多、数据访问热点不均匀等,因而无法在serverless平台上得到有效应用。


技术实现思路

1、专利技术目的:本专利技术提供一种适用于 serverless 机器学习模型训练场景的动态可伸缩的数据共享系统,解决现有技术在领域特定优化、与serverless平台集成、动态伸缩性方面的不足等问题。通过设计共享数据集描述api,本专利技术实现了待共享数据集的规范化建模,为机器学习模型训练任务提供了高效且统一的数据集访问接口。本专利技术实现了基于数据集分片缓存、领域特定的缓存淘汰策略最长采样距离(lsd,longest sample distance)和并行异步预取机制的数据共享服务,以提高数据的可访问性和共享效率。同时能够根据机器学习模型训练任务随机采样序列可预测性的特征,自动推导未来的数据访问需求,并结合实际的数据访问情况,统计数据访问指标,构建动态分片树结构,智能调整数据共享分片的数量。这种灵活的调整能力使得数据共享服务能够动态地扩缩容,极大提升了系统整体的资源利用效率。在确保资源利用的合理性的同时,本系统有效地促进了不同训练任务之间的数据共享率,提升了训练函数的数据加载的速度。

2、技术方案:一种面向serverless 机器学习模型训练的动态可伸缩数据共享系统,包括以下内容:

3、(1)设计共享数据集描述 api,用于创建、使用、销毁共享数据集,在创建时指定数据集的元信息和数据样本信息;在使用时指定数据集的访问方式,包括是否需要随机采样以及数据批次大小等。

4、(2)通过协调服务装置,管理共享数据集的整个生命周期,包括数据集的创建、共享和销毁。当需要共享数据集时,该装置会按需创建数据分片路由装置的实例。

5、(3)通过数据分片路由装置,为多个训练函数提供指定数据集的数据共享服务。依据系统的数据访问情况,维护动态分片树结构,控制数据分片共享装置的分片范围及实例数量,从而实现灵活的动态扩缩容。

6、(4)通过数据分片共享装置,根据设定的分片范围,结合领域特定的缓存淘汰策略最长采样距离(ldu),缓存特定数据集的一部分,为训练函数提供所述分片范围内的共享数据。

7、(5)提供数据共享 sdk,训练函数通过sdk与数据共享系统建立连接,并使用指定数据集的数据共享服务。借助并行异步数据预取机制,从数据共享系统中批量预取所需数据,同时确保这一过程不会干扰到正常的训练流程。

8、本专利技术与具体的serverless平台、机器学习模型训练框架、机器学习模型训练任务相独立,不对 serverless 平台底层运行时和调度器进行修改,具有良好的兼容性以及通用性。

9、数据共享系统能根据训练任务的特点智能地缓存数据元信息和样本,在多个机器学习模型训练任务中共享这些缓存的数据集,从而加速数据加载过程,减少训练时间。能够在serverless环境中实现更加高效和成本效益的机器学习模型训练。

10、所述(1)中,共享数据集描述 api具体包括:

11、(11)共享数据集创建api,用于注册共享数据集的相应信息,如数据集id、数据样本和标签的元信息、数据集的远程对象存储服务访问地址等。这些信息被存储于一个持久性数据库中,确保数据的安全和持续性。

12、(12)共享数据集使用api,允许指定共享数据集id以访问相关信息,比如数据集的长度,这对构建本地stub数据集至关重要;此外,api还提供数据分片路由装置的访问地址,以便于后续的数据访问。

13、(13)共享数据集销毁api,通过指定共享数据集id来初始化销毁过程。在此过程中,待销毁的数据集被加入等待队列,并标记为软删除状态,使其不再对新的训练任务开放。一旦所有正在使用该数据集的训练函数执行完毕,系统将依次销毁数据分片共享装置和数据分片路由装置。

14、所述(2)中,具体包括:

15、(21)协调服务装置提供基于所述(1)中设计的api描述的远程过程调用服务,公开数据集的创建、销毁及共享部分的服务接口。

16、(22)当训练函数请求访问特定数据集时,协调服务装置进行检查。若已有相应的数据分片路由装置存在,系统便返回该数据分片路由装置的入口地址给训练函数;若不存在,系统则创建一个新的数据分片路由装置实例。

17、(23)在创建新的数据分片路由装置实例时,将共享数据集的相关信息传递给数据分片路由装置,并启动。一旦数据分片路由装置启动成功,其入口地址便被返回给训练函数,以便数据集的访问。

18、所述(3)中,具体包括:

19、(31)数据分片路由装置为 serverless 中多个训练函数提供了指定数据集的数据共享服务,并且管理一组数据分片共享装置实例,保存每个数据分片共享装置实例的唯一标识、网络访问地址,以及管理的分片范围。

20、(32)每次训练函数需要遍历一个随机打本文档来自技高网...

【技术保护点】

1. 一种面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,包括以下内容:

2. 根据权利要求1所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(1)中,共享数据集描述 API具体包括:

3. 根据权利要求1所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(2)中,具体包括:

4. 根据权利要求1所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(3)中,具体包括:

5. 根据权利要求1所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(34)中,动态分片树结构具体包括:

6. 根据权利要求1所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(4)通过数据分片共享装置,根据设定的分片范围和领域缓存淘汰策略最长采样距离,缓存数据集的一部分,为训练函数提供所述分片范围内的共享数据;

7. 根据权利要求6所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(43)中的最长采样距离缓存策略,具体包括:

8. 根据权利要求1所述的面向Serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(5)中,具体包括:

9. 一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8中任一项所述的面向Serverless 机器学习模型训练场景的动态可伸缩数据共享系统。

10. 一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-8中任一项所述的面向Serverless 机器学习模型训练场景的动态可伸缩数据共享系统的计算机程序。

...

【技术特征摘要】

1. 一种面向serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,包括以下内容:

2. 根据权利要求1所述的面向serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(1)中,共享数据集描述 api具体包括:

3. 根据权利要求1所述的面向serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(2)中,具体包括:

4. 根据权利要求1所述的面向serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(3)中,具体包括:

5. 根据权利要求1所述的面向serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(34)中,动态分片树结构具体包括:

6. 根据权利要求1所述的面向serverless 机器学习模型训练的动态可伸缩数据共享系统,其特征在于,所述(4)通过数据分片共享装置,根据设...

【专利技术属性】
技术研发人员:曹春马骏徐经纬朱治学
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1