一种面向科学大数据的索引生成方法和检索方法技术

技术编号：22531795 阅读：20 留言：0更新日期：2019-11-13 09:06

本发明专利技术涉及一种面向科学大数据的索引生成方法和检索方法，包括以下步骤：根据各个数据块的热度确定其中若干个数据块为热点数据块；根据热点数据块的连续情况将热点数据块和与该热点数据块邻近的数据块进行合并；根据合并后的数据块生成数据索引或更新原有的数据索引。本发明专利技术既可以防止数据块太大而导致检索时过多冗余信息进入磁盘而增加数据过滤的开销，又可以防止数据块太小而导致检索时增加磁盘访存的开销，更加充分利用计算机的计算资源，大大提高了科学大数据的检索效率。

An index generation and retrieval method for scientific big data

The invention relates to an index generation method and a retrieval method for scientific big data, which comprises the following steps: determining a number of data blocks as hot data blocks according to the heat degree of each data block; merging the hot data block and the data block adjacent to the hot data block according to the continuity of the hot data block; generating or updating the data index according to the merged data block The original data index. The invention can not only prevent too large data block from causing too much redundant information to enter the disk during retrieval and increase the cost of data filtering, but also prevent too small data block from increasing the cost of disk access during retrieval, make full use of computer computing resources, and greatly improve the retrieval efficiency of scientific big data.

全部详细技术资料下载

【技术实现步骤摘要】
一种面向科学大数据的索引生成方法和检索方法
本专利技术涉及数据检索
，更具体地，涉及一种面向科学大数据的索引生成方法和检索方法。
技术介绍
目前数据检索的常用办法主要有位图检索、B-Tree检索、哈希检索以及块索引。采用位图检索的时候，本身索引文件很大，特别是数据集中基数大的时候，索引文件本身的大小可能已经超过原始数据的大小，这样导致索引存储的时候占据大量的空间，同时在检索过程中，读取数据的时候，需要读取大量的索引文件，这样导致检索效率下降，计算节点使用效率变低。B-Tree检索主要是针对读写负载均衡的应用，但是目前的科学大数据分析读写负载不均衡，采用B-Tree会导致索引性能浪费，且B-Tree不能很好支持并行。因此，B-Tree检索不适用于科学大数据分析。哈希索引是用于点查询，科学数据的读取往往是连续的，需要取多个连续数据，哈希函数的记录排序都是经过哈希函数计算出来，没有一定的顺序。因此，哈希索引也不适合科学大数据分析。块索引检索是根据检索条件，每次若干个数据块进行，每次检索的数据块大小相同，没有利用数据的特点进行检索。针对科学大数据分析，目前常用的是双层索引方式，结合了块索引粗粒度查询和位图索引细粒度查询的优点。但是现有针对数据块的双层索引方式通常是在建立索引过程中，预先设置数据块的大小，然后针对数据块的大小建立双层索引。在检索的过程中，通过双层索引确定数据的范围。而数据块大小，只能是按照经验大概进行设计。科学数据块被检索进程读取进内存时，数据块大小对性能有较大的影响。在海量科学数据的建立索引的时候，很难预测最佳数据块大小。在无法准确预知哪些数...

【技术保护点】
1.一种面向科学大数据的索引生成方法，其特征在于，包括以下步骤：根据各个数据块的热度确定其中若干个数据块为热点数据块；根据热点数据块的连续情况将热点数据块和与该热点数据块邻近的数据块进行合并；根据合并后的数据块生成数据索引或更新原有的数据索引。

【技术特征摘要】
1.一种面向科学大数据的索引生成方法，其特征在于，包括以下步骤：根据各个数据块的热度确定其中若干个数据块为热点数据块；根据热点数据块的连续情况将热点数据块和与该热点数据块邻近的数据块进行合并；根据合并后的数据块生成数据索引或更新原有的数据索引。2.根据权利要求1所述的一种面向科学大数据的索引生成方法，其特征在于，根据热点数据块的连续情况将热点数据块和与该热点数据块邻近的数据块进行合并，具体包括以下步骤：根据热点数据块的连续情况将热点数据块和该热点数据块的x个前置数据块和/或y个后置数据块进行合并；x的取值小于等于a1与b1的较小值，a1为热点数据块的未进行合并的前置数据块数目，b1为预设的前置数据块合并数目阈值；y的取值小于等于a2与b2的较小值，a2为热点数据块的未进行合并的后置数据块数目，b2为预设的后置数据块合并数目阈值。3.根据权利要求2所述的一种面向科学大数据的索引生成方法，其特征在于，根据热点数据块的连续情况将热点数据块和该热点数据块的y个后置数据块进行合并，具体包括以下步骤：S1.设该热点数据块为第i个热点数据块；S2.判断第i个热点数据块的z个后置数据块中是否存在热点数据块，z为连续性参数且取值小于等于a2，若否则执行步骤S3，若是则执行步骤S4；S3.将第i个热点数据块与第i个热点数据块的y个后置数据块进行合并，并停止步骤；S4.将第i个热点数据块至第i+1个热点数据块进行合并，令i＝i+1，若i小于等于热点数据块的个数则继续执行步骤S2，否则停止步骤。4.根据权利要求3所述的一种面向科学大数据的索引生成方法，其特征在于，所述步骤S4具体包括以下步骤：S41.判断将第i个热点数据块至第i+1个热点数据块进行合并后的数据块是否满足数据块尺寸约束条件，若否则执...

【专利技术属性】
技术研发人员：卢宇彤，沈逸仙，杜云飞，钟康游，郭贵鑫，李江，杜量，曹鹏，赵帅帅，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人