【技术实现步骤摘要】
数据处理方法、装置、电子设备及可读存储介质
[0001]本申请涉及云计算
,尤其涉及云存储
,具体涉及一种数据处理方法、装置、电子设备及可读存储介质。
技术介绍
[0002]深度学习训练过程中,为了能够以随机的方式访问训练数据,深度学习训练框架会使用索引序列来反复遍历读取数据集。因而,通常通过高速缓存Cache来加快训练过程中的数据读取速度。
[0003]现有技术中,后端服务端通常部署有分布式缓存系统,分布式缓存系统的多台缓存服务器上可能缓存有大量相同的数据,使得缓存资源没有得到充分有效的利用,利用效率不高。
技术实现思路
[0004]本申请提供了一种数据处理方法、装置、电子设备及可读存储介质。
[0005]根据本申请的一方面,提供了一种数据处理方法,由服务器执行,所述方法包括:
[0006]接收终端发送的针对第一数据集的缓存预读请求,所述第一数据集包括M个数据组,M为正整数;
[0007]确定所述M个数据组中的N个数据组,N为小于M的正整数;
[0008]将所述N个数据组的数据预读至缓存中。
[0009]根据本申请的另一方面,提供了一种数据处理方法,由终端执行,包括:
[0010]向Q个服务器发送针对第一数据集的缓存预读请求,所述第一数据集包括M个数据组,Q和M为正整数;
[0011]从所述Q个服务器获取所述M个数据组的数据,每个服务器的缓存中存储有所述M个数据组中的至少一个数据组的数据;
[0012]将所述M个数据 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,由服务器执行,所述方法包括:接收终端发送的针对第一数据集的缓存预读请求,所述第一数据集包括M个数据组,M为正整数;确定所述M个数据组中的N个数据组,N为小于M的正整数;将所述N个数据组的数据预读至缓存中。2.根据权利要求1所述的方法,其中,所述确定所述M个数据组中的N个数据组,包括:根据预设映射表,确定所述M个数据组中与服务器对应的N个数据组,所述预设映射表中存储有数据组与服务器之间的对应关系。3.根据权利要求1所述的方法,其中,所述将所述N个数据组的数据预读至缓存中,包括:根据服务器的缓存上限,确定所述N个数据组中每个数据组的可缓存数据量;根据所述N个数据组中每个数据组的可缓存数据量,将所述N个数据组的数据预读至所述缓存中。4.根据权利要求1至3任一项所述的方法,其中,所述将所述N个数据组的数据预读至缓存中,包括:通过L批次缓存预读操作,将所述N个数据组的数据预读至所述缓存中,其中,在每批次缓存预读操作中,对所述N个数据组逐组执行数据的缓存预读。5.根据权利要求1所述的方法,其中,所述将所述N个数据组的数据预读至缓存中之后,所述方法还包括:若接收到终端发送的第一目标数据集合,则删除所述缓存中属于所述第一目标数据集合的数据,所述第一目标数据集合为终端当前已经缓存的数据集合;将第二目标数据集合预读至服务器的缓存中,所述第二目标数据集合为所述N个数据组中未被终端和服务器缓存的数据。6.根据权利要求1所述的方法,其中,在所述将所述N个数据组的数据预读至缓存中之后,所述方法还包括:每间隔预设时间周期,根据缓存系统当前可缓存的所述第一数据集的最小数据量,确定服务器当前可缓存的所述N个数据组的最小数据量;其中,所述缓存系统当前可缓存的所述第一数据集的最小数据量,根据所述第一数据集的数据总量、终端在上一时间周期的数据读取速度和所述缓存系统在上一时间周期的数据读取速度确定。7.根据权利要求6所述的方法,其中,确定缓存系统当前可缓存的所述第一数据集的最小数据量,包括:按照以下计算式缓存系统当前可缓存的所述第一数据集的最小数据量:其中,R为缓存系统当前可缓存的所述第一数据集的数据量,S为所述第一数据集的数据总量,C为终端在上一个时间周期的数据读取速度,Q为所述缓存系统在上一个时间周期的数据读取速度。8.根据权利要求1所述的方法,其中,所述将所述N个数据组的数据预读至缓存中之后,
所述方法还包括:在接收到终端发送的针对第一数据集的第一数据的数据读取请求,且服务器的缓存中缓存有所述第一数据的情况下,获取并向终端发送所述第一数据;在接收到终端发送的针对第一数据集的第一数据的数据读取请求,且服务器的缓存中未缓存有所述第一数据但缓存有第二数据的情况下,获取并向终端发送所述第二数据;所述第一数据和所述第二数据属于所述第一数据集中的同一数据组;在接收到终端发送的针对第一数据集的第一数据的数据读取请求,且服务器的缓存中未缓存有所述第一数据所属的数据组的情况下,向服务器的后端存储系统发送对所述第一数据集的第一数据的数据读取请求。9.一种数据处理方法,由终端执行,包括:向Q个服务器发送针对第一数据集的缓存预读请求,所述第一数据集包括M个数据组,Q和M为正整数;从所述Q个服务器获取所述M个数据组的数据,每个服务器的缓存中存储有所述M个数据组中的至少一个数据组的数据;将所述M个数据组的数据预读至缓存中。10.根据权利要求9所述的方法,其中,所述将所述M个数据组的部分或者全部数据预读至缓存中,包括:根据终端的缓存上限,确定所述每个所述数据组的可缓存数据量;根据每个所述数据组的可缓存数据量,将所述M个数据组的数据预读至终端缓存中。11.根据权利要求9或10所述的方法,其中,所述将所述M个数据组的部分或者全部数据预读至缓存中,包括:通过T批次缓存预读操作,将所述M个数据组预读至终端缓存中,其中,在每批次缓存预读操作中,对每个所述数据组逐组执行数据的缓存预读。12.根据权利要求9所述的方法,其中,所述将所述M个数据组的部分或者全部数据预读至缓存中之后,所述方法还包括:在接收到对第一数据集的第一数据的数据读取请求,且终端的缓存中缓存有所述第一数据的情况下,获取所述第一数据;在接收到对第一数据集的第一数据的数据读取请求,且终端的缓存中未缓存有所述第一数据但缓存有第二数据的情况下,获取所述第二数据,所述第一数据和所述第二数据属于所述第一数据集中的同一数据组;在接收到对第一数据集的第一数据的数据读取请求,且终端的缓存中未缓存有所述第一数据所属的数据组的情况下,向服务器发送对所述第一数据集的第一数据的数据读取请求。13.一种数据处理装置,所述装置包括:接收模块,用于接收终端发送的针对第一数据集的缓存预读请求,所述第一数据集包括M个数据组,M为正整数;第一确定模块,用于确定所述M个数据组中的N个数据组,N为小于M的正整数;第一预读模块,用于将所述N个数据组的数据预读至缓存中。14.根据权利要求13所述的装...
【专利技术属性】
技术研发人员:刘朋,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。