数据处理方法及装置、计算机存储介质、电子设备制造方法及图纸

技术编号:33350637 阅读:74 留言:0更新日期:2022-05-08 09:55
本公开涉及计算机技术领域,提供了一种数据处理方法、数据处理装置、计算机存储介质、电子设备,应用于数据分片终端,所述数据分片终端与多个参数服务器通信连接,所述参数服务器用于维护待存储数据,其中,数据处理方法包括:按照预设分片数目将待存储数据划分为带有分片序号的多个分片;根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,以使各所述参数服务器加载所述分片序号对应的分片,并为所述分片创建索引。本公开能够在参数服务器数目变更时,避免数据重分片操作,提高数据的加载效率,从而提升模型训练和模型上线的效率。升模型训练和模型上线的效率。升模型训练和模型上线的效率。

【技术实现步骤摘要】
数据处理方法及装置、计算机存储介质、电子设备


[0001]本公开涉及计算机
,特别涉及一种数据处理方法、数据处理装置、计算机存储介质及电子设备。

技术介绍

[0002]在模型的训练过程中,需要处理大规模稀疏特征,这些稀疏特征对应的参数规模比较大,为提高其更新和查询的处理效率,一般需要将其按照一定的规则进行分片并存储在不同的参数服务器中。并且,随着训练数据量的更新,有根据模型参数的规模调整参数服务器数目的需求。
[0003]相关技术中,一般是使用预设的哈希算法计算特征的哈希值,使用该哈希值与参数服务器的数量进行取余运算,以确定各模型参数所属的参数服务器。然而,当参数服务器的数量调整时,该方法需要重新对模型参数进行分片处理,但由于模型参数规模巨大,重分片操作耗费时间比较长。
[0004]鉴于此,本领域亟需开发一种新的数据处理方法及装置。
[0005]需要说明的是,上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解。

技术实现思路

[0006]本公开的目的在于提供一种数据处理方法、数据处理装置、计算本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于数据分片终端,所述数据分片终端与多个参数服务器通信连接,所述参数服务器用于维护待存储数据,所述方法包括:按照预设分片数目将待存储数据划分为带有分片序号的多个分片;根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,以使各所述参数服务器加载所述分片序号对应的分片,并为所述分片创建索引。2.根据权利要求1所述的方法,其特征在于,所述待存储数据包括用于训练机器学习模型的多个模型参数;所述按照预设分片数目将待存储数据划分为带有分片序号的多个分片,包括:利用预设的哈希算法确定各所述模型参数对应的哈希值;对各所述哈希值与所述预设分片数目进行取余运算,得到各所述模型参数所属的分片序号;将所述所属的分片序号相同的模型参数划分为一个分片,以获得所述带有分片序号的多个分片。3.根据权利要求1所述的方法,其特征在于,所述根据所述预设分片数目和所述参数服务器的数目,确定分配至各所述参数服务器的分片序号,包括:获取所述预设分片数目除以所述参数服务器的数目所得的商值;对所述商值进行向下取整,得到向各所述参数服务器分配的分片个数;根据所述分片个数,确定分配至各所述参数服务器的分片序号。4.根据权利要求3所述的方法,其特征在于,所述根据所述分片个数,确定分配至各所述参数服务器的分片序号,包括:对于前n

1个参数服务器,根据所述分片序号由小到大的顺序,依次向每个参数服务器分配与所述分片个数相对应的分片;将未分配的分片序号确定为分配至各第n个参数服务器的分片序号;n表示所述参数服务器的数目,n为大于1的整数。5.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:邢召龙刘近光王文生张克丰包勇军刘倩欣张林贺旭熊俊
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1