数据处理的方法、装置及系统制造方法及图纸

技术编号：20865987 阅读：24 留言：0更新日期：2019-04-17 09:15

本发明专利技术公开了一种数据处理的方法、装置及系统，涉及信息技术领域，为解决检索请求大量占用系统内存的问题而发明专利技术。本发明专利技术的方法包括：对检索请求涉及的文件集合进行分组，获得多个文件子集；为第一个文件子集分配缓存，以读取第一个文件子集中的数据；在第一个文件子集中的数据读取完毕后，释放第一个文件子集的缓存，并为下一文件子集分配缓存，以读取下一文件子集中的数据；在读取到各个文件子集的数据后，对所有文件子集的数据进行合并，得到向客户端返回的用户数据。本发明专利技术主要应用于基于分布式存储系统的数据检索过程中。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理的方法、装置及系统本专利技术是申请日为2014年10月29日、申请号为2014105946768、专利技术名称为《数据处理的方法、装置及系统》的分案申请。
本专利技术涉及信息
，尤其涉及一种数据处理的方法、装置及系统。
技术介绍
Cassandra是一种无中心节点的存储系统，根据哈希Hash算法将数据均等的分散到不同的节点中。与传统的集中式存储系统相比，分布式存储系统可以改善数据集中存储导致的系统性能受限的问题，能够提高数据存储、数据查询及数据处理的效率，更加适应大规模数据存储的场景。MemTable是在分布式节点内存中分配的一定大小的空间，用来存放用户写入的数据。当用户向节点写入数据时，写入的数据会直接追加到节点内存中的MemTable中。当MemTable数据写满后，节点会将MemTable中的所有数据转存储(dump)到磁盘上，形成一个有序字符串表(SortedStringTable，简称SSTable)文件，从而完成对写入数据的存储，也就是说，数据是以SSTable文件格式存储在节点磁盘上的。通常，节点中的每个SSTable文件都会存储一组任意有序的键值(Key)对，Key作为SSTable文件的关键值，用于对SSTable文件中的数据进行标识(在客户端层面上，可以将Key简单理解为存储或查找数据的关键词)。对于每个Key而言，用户可以在同一时刻向节点写入同一Key值的多列(Column)信息，也可以在不同时刻向节点写入同一Key的多列Column。由于MemTable会在内存写满后转储SSTable文件，因此同一Key在不同时刻写入...

【技术保护点】
1.一种数据处理的方法，其特征在于，所述方法包括：对检索请求涉及的文件集合进行分组，获得多个文件子集；为第一个文件子集分配缓存，以读取所述第一个文件子集中的数据；在所述第一个文件子集中的数据读取完毕后，释放所述第一个文件子集的缓存，并为下一文件子集分配缓存，以读取所述下一文件子集中的数据；在读取到各个文件子集的数据后，对所有文件子集的数据进行合并，得到向客户端返回的用户数据。

【技术特征摘要】
1.一种数据处理的方法，其特征在于，所述方法包括：对检索请求涉及的文件集合进行分组，获得多个文件子集；为第一个文件子集分配缓存，以读取所述第一个文件子集中的数据；在所述第一个文件子集中的数据读取完毕后，释放所述第一个文件子集的缓存，并为下一文件子集分配缓存，以读取所述下一文件子集中的数据；在读取到各个文件子集的数据后，对所有文件子集的数据进行合并，得到向客户端返回的用户数据。2.根据权利要求1所述的方法，其特征在于，所述对检索请求涉及的文件集合进行分组，包括：根据当前的内存占用情况确定分组系数；通过所述分组系数以及所述文件集合中的文件总数，对所述文件集合进行分组；其中，当前内存占用比例与分组后的文件子集数量之间呈正相关关系。3.根据权利要求2所述的方法，其特征在于，所述分组系数为每个文件子集中的文件数量，所述文件数量与所述当前内存占用比例之间呈负相关关系。4.根据权利要求2所述的方法，其特征在于，所述分组系数为文件子集对所述文集集合的集合占比，所述集合占比与所述当前内存占用比例之间呈负相关关系。5.根据权利要求2所述的方法，其特征在于，所述分组系数为文件子集数量，所述文件子集数量与所述当前内存占用比例之间呈正相关关系。6.根据权利要求1所述的方法，其特征在于，在所述对检索请求涉及的文件集合进行分组之前，所述方法进一步包括：当存在多个检索请求时，对检索对象...

【专利技术属性】
技术研发人员：王锋，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人