【技术实现步骤摘要】
数据存储系统、方法、装置、设备以及存储介质
本申请涉及计算机
,具体涉及数据存储、搜索等
,尤其涉及数据存储方法、装置、设备以及存储介质。
技术介绍
自媒体、小视频等新媒体形式丰富了网络上信息的形式和载体,这些海量结构化数据通过站长向搜索引擎提供,引擎抓取处理后需要进行存储后再构建索引。数据的增长带来的就是存储上机器成本、运维成本的疯狂增长。海量结构化数据存储目前采用列型非关系型数据库Hbase存储。使用列型非关系型数据库Hbase作为存储,依赖master,regionserver,zk等多个模块,运维成本高。另外,列型非关系型数据库Hbase,在持续数据到达的场景下,压缩粒度粗糙,数据放大明显且难以控制,最终导致读写性能不足,无法满足海量搜索数据存储的需求。
技术实现思路
为了解决上述
技术介绍
部分提到的一个或多个技术问题,本申请实施例提供了数据存储系统、方法、装置、设备以及存储介质。第一方面,本申请实施例提供了数据存储系统,包括:用户终端,配置于:在文件写入时,将文件顺序地 ...
【技术保护点】
1.一种数据存储系统,包括:/n用户终端,配置于:/n在文件写入时,将文件顺序地写入分布式文件系统,以及将文件的元信息注册到元信息服务器;/n在文件读取时,从元信息服务器中获取待读取文件的元信息,以及根据获取到的待读取文件的元信息从所述分布式文件系统读取所述待读取文件;/n元信息服务器,配置于存储文件的元信息,其中,所述文件的元信息包含文件的键值范围;/n分布式文件系统,配置于存储用户终端写入的文件。/n
【技术特征摘要】
1.一种数据存储系统,包括:
用户终端,配置于:
在文件写入时,将文件顺序地写入分布式文件系统,以及将文件的元信息注册到元信息服务器;
在文件读取时,从元信息服务器中获取待读取文件的元信息,以及根据获取到的待读取文件的元信息从所述分布式文件系统读取所述待读取文件;
元信息服务器,配置于存储文件的元信息,其中,所述文件的元信息包含文件的键值范围;
分布式文件系统,配置于存储用户终端写入的文件。
2.根据权利要求1所述的系统,所述文件的结构为日志结构的合并树。
3.根据权利要求1所述的系统,所述文件的键包括文件的版本信息。
4.根据权利要求2所述的系统,还包括
触发器,配置于:
接收到所述元信息服务器传递的待压缩文件的元信息;
根据所述元信息中的文件的键值范围的排序信息,确定所述元信息的多个子元信息集合;
生成对对应于所述多个子元信息集合的文件进行压缩的多个子任务;
将所述多个子任务传递至消息队列;
消息队列,配置于存储所述多个子任务,以及将所述多个子任务传递给压缩器;
压缩器,配置于执行所述多个子任务。
5.根据权利要求4所述的系统,所述压缩器还包括:
文件过期模块,配置于执行文件过期;
垃圾回收模块,配置于执行垃圾文件回收。
6.根据权利要求...
【专利技术属性】
技术研发人员:滕岩松,曲晶莹,张安站,刘伟,刘桐仁,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。