一种数据索引方法、及设备技术

技术编号：18256511 阅读：35 留言：0更新日期：2018-06-20 08:17

本发明专利技术提供了一种数据索引方法及设备，其中数据索引方法包括：根据多个文件的列值构建索引数据；当接收到检索条件时，确定需要检索的列值；根据确定的列值在索引数据中进行检索，得到包含需要检索的列值的文件。本发明专利技术实施例提供的数据索引方法、及设备，通过构建索引数据，在接收到检索条件时，能够快速检索到包含需要检索的列值的文件，支持海量数据索引，同时不影响原始数据的存储结构，可适配多种不同的原始数据格式。

A data indexing method and device

The present invention provides a data indexing method and device, in which the data indexing method includes: constructing index data according to the column values of multiple files; determining the column values to be retrieved when receiving the retrieval conditions; retrieving in the index data according to the determined column values, and obtaining a file containing the column values that need to be retrieved. The data indexing method and equipment provided by the embodiment of the invention can quickly retrieve the file containing the column values that need to be retrieved, support the mass data index, without affecting the storage structure of the original data, and can match a variety of different original data formats.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据索引方法、及设备
本专利技术涉及数据存储和管理领域，特别涉及一种数据索引方法、及设备。
技术介绍
随着信息化的发展和大数据时代的来临，数据量呈爆炸式增长，为了支撑海量数据环境下数据的快速检索，数据索引的设计成为至关重要的环节。在海量数据环境下，由于数据量过大，通常只为近期的数据建立索引并进行缓存，从而随着时间的推移，索引结构会有大量的增加和删除操作；另一方面，由于数据量过大，索引结构的设计需要尽量提高内存利用率。传统关系型数据中，通常采用B+Tree等结构来实现数据的索引结构，但该方式存在内存占用量较高、索引删除性能低等问题，不适用于海量数据环境下的索引管理。在大数据技术背景下，数据存储和管理系统通常将外部数据源以文件方式进行存储和管理。一般情况下，存储系统将若干条记录(通常在100W级别以上)组织存储，形成一个文件，存储到如EXT4、HDFS等文件系统中。在系统总数据量达到千亿级别情况下，会产生数万甚至几十万个文件。在没有建立索引时，系统只能逐个扫描文件，以查找符合检索条件的数据，因此性能极低。在现有技术方案中，1)索引一般与原始数据交叉共存，不适用与大数据环境下的scheme-on-read机制；2)索引通常指向每条记录的具体位置，粒度过细，难以支撑海量数据索引，同时难以支撑高效的批量删除机制。
技术实现思路
为了支撑海量数量索引，更快的检索到符合检索条件的文件，本专利技术提供了一种数据索引方法、及设备。本专利技术提供的数据索引方法，包括：根据多个文件的列值构建索引数据；当接收到检索条件时，确定需要检索的列值；根据确定的列值在所述索引数据中进行检索...

【技术保护点】
1.一种数据索引方法，其特征在于，包括：根据多个文件的列值构建索引数据；当接收到检索条件时，确定需要检索的列值；根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件。

【技术特征摘要】
1.一种数据索引方法，其特征在于，包括：根据多个文件的列值构建索引数据；当接收到检索条件时，确定需要检索的列值；根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件。2.如权利要求1所述的数据索引方法，其特征在于，所述根据多个文件的列值构建索引数据，包括：获取多个文件的原始数据，并分别对每个文件的原始数据进行解析得到该文件的列值；对多个文件的列值进行合并、剔除重复列值、及排序得到列值有序表；以所述文件的数量为行的数量，以所述列值有序表中列值的数量为列的数量，构建矩阵；分别根据每个文件中的列值，在所述矩阵中填入相应的数据，表示每个文件是否包含所述列值有序表中的列值。3.如权利要求1所述的数据索引方法，其特征在于，当需要检索的列值为多个，且多个列值之间存在交集或/和并集关系时，根据确定的列值在所述索引数据中进行检索，得到包含所述需要检索的列值的文件，包括：分别根据确定的每个列值在所述索引数据中进行检索，得到与每个列值对应的文件的位图信息；将若干个与列值对应的文件的位图信息按照列值之间的关系进行交集或/和并集计算，得到符合检索条件的位图信息；将所述符...

【专利技术属性】
技术研发人员：何庆，邓晓东，许敬伟，冯运波，江为强，安宝宇，周晓阳，汤泰鼎，魏星，
申请(专利权)人：中国移动通信集团广东有限公司，北京天融信网络安全技术有限公司，北京天融信科技有限公司，北京天融信软件有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人