数据处理方法及装置、计算机存储介质、电子设备制造方法及图纸

技术编号:33350637 阅读:57 留言:0更新日期:2022-05-08 09:55
本公开涉及计算机技术领域,提供了一种数据处理方法、数据处理装置、计算机存储介质、电子设备,应用于数据分片终端,所述数据分片终端与多个参数服务器通信连接,所述参数服务器用于维护待存储数据,其中,数据处理方法包括:按照预设分片数目将待存储数据划分为带有分片序号的多个分片;根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,以使各所述参数服务器加载所述分片序号对应的分片,并为所述分片创建索引。本公开能够在参数服务器数目变更时,避免数据重分片操作,提高数据的加载效率,从而提升模型训练和模型上线的效率。升模型训练和模型上线的效率。升模型训练和模型上线的效率。

【技术实现步骤摘要】
数据处理方法及装置、计算机存储介质、电子设备


[0001]本公开涉及计算机
,特别涉及一种数据处理方法、数据处理装置、计算机存储介质及电子设备。

技术介绍

[0002]在模型的训练过程中,需要处理大规模稀疏特征,这些稀疏特征对应的参数规模比较大,为提高其更新和查询的处理效率,一般需要将其按照一定的规则进行分片并存储在不同的参数服务器中。并且,随着训练数据量的更新,有根据模型参数的规模调整参数服务器数目的需求。
[0003]相关技术中,一般是使用预设的哈希算法计算特征的哈希值,使用该哈希值与参数服务器的数量进行取余运算,以确定各模型参数所属的参数服务器。然而,当参数服务器的数量调整时,该方法需要重新对模型参数进行分片处理,但由于模型参数规模巨大,重分片操作耗费时间比较长。
[0004]鉴于此,本领域亟需开发一种新的数据处理方法及装置。
[0005]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

[0006]本公开的目的在于提供一种数据处理方法、数据处理装置、计算机存储介质及电子设备,进而至少在一定程度上避免了相关技术中当参数服务器的数目调整时需要对参数重新分片的缺陷。
[0007]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0008]根据本公开的第一方面,提供一种数据处理方法,应用于数据分片终端,所述数据分片终端与多个参数服务器通信连接,所述参数服务器用于维护待存储数据,所述方法包括:按照预设分片数目将待存储数据划分为带有分片序号的多个分片;根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,以使各所述参数服务器加载所述分片序号对应的分片,并为所述分片创建索引。
[0009]在本公开的示例性实施例中,所述待存储数据包括用于训练机器学习模型的多个模型参数;所述按照预设分片数目将待存储数据划分为带有分片序号的多个分片,包括:利用预设的哈希算法确定各所述模型参数对应的哈希值;对各所述哈希值与所述预设分片数目进行取余运算,得到各所述模型参数所属的分片序号;将所述所属的分片序号相同的模型参数划分为一个分片,以获得所述带有分片序号的多个分片。
[0010]在本公开的示例性实施例中,所述根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,包括:获取所述预设分片数目除以所述参数服务器的数目所得的商值;对所述商值进行向下取整,得到向各所述参数服务器分配的分
片个数;根据所述分片个数,确定分配至各所述参数服务器的分片序号。
[0011]在本公开的示例性实施例中,所述根据所述分片个数,确定分配至各所述参数服务器的分片序号,包括:对于前n

1个参数服务器,根据所述分片序号由小到大的顺序,依次向每个参数服务器分配与所述分片个数相对应的分片;将未分配的分片序号确定为分配至各第n个参数服务器的分片序号;n表示所述参数服务器的数目,n为大于1的整数。
[0012]在本公开的示例性实施例中,当所述参数服务器的数目发生变更时,所述方法还包括:获取变更后的所述参数服务器的目标数目;根据所述预设分片数目和所述目标数目,确定分配至各所述参数服务器的目标分片序号,以使各所述参数服务器加载所述目标分片序号对应的分片,并为所述分片创建索引。
[0013]根据本公开的第二方面,提供一种数据处理方法,应用于参数服务器,所述方法包括:获取分配至所述参数服务器的分片序号,以及,分配至所述参数服务器的分片个数;获取所述参数服务器的标识与所述分片个数之间的乘积;根据各所述分片序号和所述乘积的差值,确定各所述分片对应的索引。
[0014]根据本公开的第三方面,提供一种数据处理装置,包括:数据分片模块,用于按照预设分片数目将待存储数据划分为带有分片序号的多个分片;分片加载模块,用于根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,以使各所述参数服务器加载所述分片序号对应的分片,并为所述分片创建索引。
[0015]根据本公开的第四方面,提供一种数据处理装置,包括:序号获取模块,用于获取分配至所述参数服务器的分片个数,以及,分配至所述参数服务器的分片序号;乘积获取模块,用于获取所述参数服务器的标识与所述分片个数之间的乘积;索引创建模块,用于根据各所述分片序号和所述乘积的差值,确定各所述分片对应的索引。
[0016]根据本公开的第五方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面所述的数据处理方法。
[0017]根据本公开的第六方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面或第二方面所述的数据处理方法。
[0018]由上述技术方案可知,本公开示例性实施例中的数据处理方法、数据处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
[0019]在本公开的一些实施例所提供的技术方案中,一方面,按照预设分片数目将待存储数据划分为带有分片序号的多个分片,能够避免直接对全量数据进行存储所导致的服务器节点压力过大的问题,减小数据操作压力,提升数据的查询和召回效率。另一方面,根据预设分片数目和参数服务器的数目,确定分配至各参数服务器的分片序号,以使各参数服务器加载分片序号对应的分片,并为分片创建索引,能够在参数服务器数目发生变动时,只需要在预先得到的预设分片数目的基础上,调整每个参数服务器中存储的分片序号并重新加载参数即可,无需对参数重新分片,解决相关技术中当参数服务器数目变动时需要对参数重新分片的技术问题,从而,节省了重分片操作的时间,提高了离线训练和在线推理之间模型流转的效率,使得离线训练导出的模型能够快速推到线上并提供推理服务,提升业务效果。
[0020]本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性
的,并不能限制本公开。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1A示出相关技术中模型离线训练的架构图;
[0023]图1B示出相关技术中的分片方法的示意图;
[0024]图1C示出相关技术中模型在线推理的架构图;
[0025]图2示出本公开实施例中数据处理方法的流程示意图;
[0026]图3示出本公开实施例中按照预设分片数目对待存储数据进行分片,获得多个分片的流程示意图;
[0027]图4示出本公开实施例中根据预设分片数目和参数服务器的数目,确定分配至各个参数服务器的分片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于数据分片终端,所述数据分片终端与多个参数服务器通信连接,所述参数服务器用于维护待存储数据,所述方法包括:按照预设分片数目将待存储数据划分为带有分片序号的多个分片;根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,以使各所述参数服务器加载所述分片序号对应的分片,并为所述分片创建索引。2.根据权利要求1所述的方法,其特征在于,所述待存储数据包括用于训练机器学习模型的多个模型参数;所述按照预设分片数目将待存储数据划分为带有分片序号的多个分片,包括:利用预设的哈希算法确定各所述模型参数对应的哈希值;对各所述哈希值与所述预设分片数目进行取余运算,得到各所述模型参数所属的分片序号;将所述所属的分片序号相同的模型参数划分为一个分片,以获得所述带有分片序号的多个分片。3.根据权利要求1所述的方法,其特征在于,所述根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,包括:获取所述预设分片数目除以所述参数服务器的数目所得的商值;对所述商值进行向下取整,得到向各所述参数服务器分配的分片个数;根据所述分片个数,确定分配至各所述参数服务器的分片序号。4.根据权利要求3所述的方法,其特征在于,所述根据所述分片个数,确定分配至各所述参数服务器的分片序号,包括:对于前n

1个参数服务器,根据所述分片序号由小到大的顺序,依次向每个参数服务器分配与所述分片个数相对应的分片;将未分配的分片序号确定为分配至各第n个参数服务器的分片序号;n表示所述参数服务器的数目,n为大于1的整数。5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:邢召龙刘近光王文生张克丰包勇军刘倩欣张林贺旭熊俊
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1