【技术实现步骤摘要】
数据写入方法、装置及服务器
[0001]本公开涉及数据处理
,尤其涉及一种数据写入方法、装置及服务器。
技术介绍
[0002]在千亿文章数据库中检索相似文章的使用场景中,数据实时高效更新、快速检索是分析师经常关心的问题。由于HBase(分布式数据库,Hadoop DateBase)适合海量数据的存储,并且相似文章的集合可以根据行键做快速检索,因此业界往往采用HBase作为存储引擎。
[0003]相关技术中,一般采用一行多列的方式实现数据的读写,比如通过将相似文章的标识数据作为一个数据单元存入同一行的不同列中,逻辑上一行为一个集合。然而,随着写入的数据单元的增多,集合中的数据单元数量也越来越多,在需要检索并读取该集合时,Hbase引擎层会做大量的数据单元比对工作,进而影响数据的处理效率。
技术实现思路
[0004]本公开提供一种数据写入方法、装置及服务器,以至少解决相关技术中,一行多列的数据读写方案存在的处理效率差的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供 ...
【技术保护点】
【技术特征摘要】
1.一种数据写入方法,其特征在于,包括:获取待写入内容的标识数据,确定所述待写入内容的标识数据在N个一级集合中的第一哈希码,N为正整数;读取目标集合所存储的数据,并得到第一读取结果,所述目标集合为所述N个一级集合中与所述第一哈希码对应的一级集合;根据所述第一读取结果,将所述待写入内容的标识数据写入与所述第一哈希码关联的集合中。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一读取结果,将所述待写入内容的标识数据写入与所述第一哈希码关联的集合中的步骤,包括:在所述第一读取结果指示满足第一条件的情况下,将所述待写入内容的标识数据写入所述目标集合中;其中,所述第一条件为所述目标集合中数据的存储量大于零且小于预设存储量。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一读取结果,将所述待写入内容的标识数据写入与所述第一哈希码关联的集合中的步骤,包括:在所述第一读取结果指示满足第二条件的情况下,将所述目标集合拆分成N个二级集合,并确定所述待写入内容的标识数据在所述N个二级集合中的第二哈希码;其中,所述第二条件为所述目标集合中数据的存储量大于或等于预设存储量;将所述待写入内容的标识数据写入所述N个二级集合中与所述第二哈希码对应的二级集合中。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一读取结果,将所述待写入内容的标识数据写入与所述第一哈希码关联的集合中的步骤,包括:在所述第一读取结果指示满足第三条件的情况下,获取分布式数据库的元信息;其中,所述第三条件为所述目标集合中数据的存储量为零;基于所述元信息,将所述待写入内容的标识数据写入与所述第一哈希码关联的集合中。5.根据权利要求4所述的方法,其特征在于,所述基于所述元信息,将所述待写入内容的标识数据写入与所述第一哈希码关联的集合中的步骤,包...
【专利技术属性】
技术研发人员:徐明,陈杨,倪雯,孙军,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。