一种数据处理方法及装置制造方法及图纸

技术编号:32226712 阅读:37 留言:0更新日期:2022-02-09 17:31
本发明专利技术实施例提供了一种数据处理方法及装置,涉及数据处理技术领域。该方法包括:判断目标索引数据集的数据量是否大于或等于阈值数据量;若是,则获取目标索引数据集中的各个索引数据的命中率;根据目标索引数据集中各个索引数据的命中率,将目标索引数据集中命中率属于同一命中率区间的索引数据划分为一个数据分组,获取多个数据分组;根据各个数据分组的命中率配置各个数据分组对应的服务器数量;任一数据分组对应的服务器数量与该数据分组的命中率正相关;根据各个数据分组对应的服务器数量为各个数据分组分配服务器。本发明专利技术实施例用于减少索引集群中的服务器的数量,进而减少索引集群的硬件成本。少索引集群的硬件成本。少索引集群的硬件成本。

【技术实现步骤摘要】
一种数据处理方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种数据处理方法及装置。

技术介绍

[0002]随着信息时代的到来,数据总量呈现爆炸式增长,在面对海量数据时,如果无法从中检索出有效数据,数据将会变得混乱和难以使用,也就无法发挥其价值,因此数据检索已经成为数据处理领域的核心技术和重要基础。
[0003]在实现数据检索时,如果每一台服务器均存储全部的索引数据,随着索引数据规模渐变增大,则会带来检索查询慢,评分计算量大,甚至索引数据超过服务器本身的存储上限等问题。为解决这些问题,目前业界普遍采用的方式为:在索引数据集的数据量达到一定规模后,直接将索引数据集均匀的拆分为多个子索引数据集,并分别将拆分得到的子索引数据集存储在一个服务器上,从而减少单个服务器上存储的索引数据,减少服务器在处理单一检索请求时的数据处理量。此外,当需要处理的检索请求量增多时,还会将服务器中存储的子索引数据集复制到额外的服务器上,通过增加服务器数量的方式,降低索引集群中各个服务器的总数据处理量。现有技术中这种分别将索引数据集中的部分索引数据存储本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:判断目标索引数据集的数据量是否大于或等于阈值数据量;若是,则获取所述目标索引数据集中各个索引数据的命中率,任一索引数据的命中率为预设时长内命中该索引数据的检索请求的数量与所述检索请求的总数量的比值;将所述目标索引数据集中命中率属于同一命中率区间的索引数据划分为一个数据分组,获取多个数据分组;根据各个数据分组的命中率配置各个数据分组对应的服务器数量;任一数据分组的命中率为所述预设时长内命中该数据分组的检索请求的数量与所述检索请求的总数量的比值;任一数据分组对应的服务器数量与该数据分组的命中率正相关;根据各个数据分组对应的服务器数量为各个数据分组分配服务器。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述目标索引数据集中各个预设规则对应的索引数据;将各个预设规则对应的索引数据移动到各个预设规则对应的数据分组中。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:根据各个数据分组的命中率配置各个数据分组的检索优先级;其中,所述检索优先级用于表征进行数据检索时的检索顺序,各个数据分组的检索优先级与各个数据分组的命中率正相关。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:接收检索请求,所述检索请求中携带有预设阈值,所述预设阈值用于表征检索结果中包含的原始数据的最大数量;将所述检索请求转换为检索条件;根据所述检索条件对检索优先级最高的数据分组进行检索,获取检索优先级最高的数据分组的检索结果;判断检索优先级最高的数据分组的检索结果中包含的原始数据的数量是否大于或等于所述预设阈值;若是,则根据检索优先级最高的数据分组的检索结果中的原始数据与所述检索请求的相关性,返回所述检索请求对应的检索结果;若否,则根据所述检索条件对下一检索优先级的数据分组进行检索,获取下一检索优先级的数据分组的检索结果,直到各个检索结果中包含的原始数据的数量之和大于或等于所述预设阈值时,根据各个检索结果中的原始数据与所述检索请求的相关性,返回所述检索请求对应的检索结果。5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:判断各个数据分组的数据量是否大于或等于所述阈值数据量;若第一数据分组的数据量大于所述阈值数据量,则将所述第一数据分组平均拆分为至少两个数据分区,并设置所述至少两个数据分区的检索优先级均与所述第一数据分组的检索优先级相同;根据所述第一数据分组对应的服务器数量为平均为所述至少两个数据分区分配服务器。6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
判断各个数据分组的数据量是否大于或等于所述阈值数据量;若第二数据分组的数据量大于所述阈值数据量,则获取所述第二数据分组中各个索引字段的命中率,任一索引字段的命中率为所述预设时长内命中该索引字段的检索请求的数量与所述检索请求的总数量的比值;将所述第二数据分组的各个索引字段命中率属于同一命中率区间的索引字段划分为一个数据分区,获取多个数据分区;根据所述第二数据分组对应的服务器数量以及各个数据分区的命中率,配置各个数据分区对应的...

【专利技术属性】
技术研发人员:刘大伟曾文生郑伟
申请(专利权)人:北京库睿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1