【技术实现步骤摘要】
数据分片方法、装置、电子设备及计算机可读介质
本公开实施例涉及数据处理
,具体而言,本公开涉及一种数据分片方法、装置、电子设备及计算机可读介质。
技术介绍
随着计算机的发展,数据的规模越来越大。为了便于数据的存储,通常会将数据分片,不同的分片数据存储在不同的节点终端中,分片数据的数量和节点终端的数量相同,每个节点终端中存储一个分片数据。在需要时,将分布在节点终端的分片数据中的部分或全部数据召回。节点终端会给每个分片数据创建对应的索引信息,以便于分片数据中的数据的查询和召回。而需要分片存储的数据是海量的,分成的分片数据份数较少,每个分片数据中的数据量极多,在针对每个分片数据建立索引信息或更新索引信息时,建立和更新索引信息的速度较慢。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。第一方面,提供了一种数据分片方法
【技术保护点】
1.一种数据分片方法,应用于数据分片终端,所述数据分片终端与多个节点终端通信连接,其特征在于,包括:/n按照预设规则,将多个数据分为多个分组,每个分组的数据包括至少一个数据,每个分组的数据为一个分片数据,所述数据分组的数量至少为所述节点终端数量的两倍;/n根据所述分片数据的数量和所述节点终端的数量,确定向每个节点终端分配的分片数据,每个所述节点终端至少被分配两个分组的分片数据;/n分别发送加载指令给所述多个节点终端,所述加载指令用于使接收所述存储指令的节点终端加载所述节点终端被分配的分片数据,所述节点终端并根据加载的分片数据创建对应所述分片数据的索引信息。/n
【技术特征摘要】
1.一种数据分片方法,应用于数据分片终端,所述数据分片终端与多个节点终端通信连接,其特征在于,包括:
按照预设规则,将多个数据分为多个分组,每个分组的数据包括至少一个数据,每个分组的数据为一个分片数据,所述数据分组的数量至少为所述节点终端数量的两倍;
根据所述分片数据的数量和所述节点终端的数量,确定向每个节点终端分配的分片数据,每个所述节点终端至少被分配两个分组的分片数据;
分别发送加载指令给所述多个节点终端,所述加载指令用于使接收所述存储指令的节点终端加载所述节点终端被分配的分片数据,所述节点终端并根据加载的分片数据创建对应所述分片数据的索引信息。
2.根据权利要求1所述的数据分片方法,其特征在于,所述数据包括序列号ID,所述按照预设规则,将多个数据分为多个分组,包括:
创建m个数据表,所述m至少为所述节点终端数量的两倍,m个数据表的编号依次为0至m-1;
根据每个数据的ID确定所述数据对应的消息摘要算法MD5值;
确定每个数据的MD5值对m的余数i;
将每个数据放入对应所述数据的余数i的分组编号的数据表中。
3.根据权利要求1所述的数据分片方法,其特征在于,所述确定向每个节点终端分配的分片数据,包括:
确定将多个所述分片数据按序依次分配给所述多个节点终端进行加载;或
计算所述分片数据的数量与所述节点终端的数量的倍数和余数;
确定将倍数数值个分片数据分配给每个节点终端进行加载,并确定将余数数值个分片数据分配给任意余数数值个节点终端进行加载。
4.根据权利要求1所述的数据分片方法,其特征在于:还包括多个冗余终端,所述冗余终端和所述数据分片终端通信,每个节点终端至少对应一个冗余终端,所述冗余终端存储有对应所述节点终端的分片数据和索引信息。
5.根据权利要求4所述的数据分片方法,其特征在于,所述方法还包括:
获取每个节点终端、每个冗余终端分别包括的分片数据的分组的信息和每个节点终端、每个冗余终端分别的权重;
根据所述分片数据的分组的信息和所述权重,从所述节点终端和冗余终端中确定...
【专利技术属性】
技术研发人员:白戈,袁志伟,王长虎,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。