一种大数据系统中创建索引表的方法技术方案

技术编号：17007831 阅读：36 留言：0更新日期：2018-01-11 04:04

本发明专利技术提供一种大数据系统中创建索引表的方法。本发明专利技术包括（1）基于数据字典的元数据存储，采用字典编码来加快计算速度，数据只有在返回结果给用户的时候才转换成用户可读的形式；（2）多维数据聚集：在入库时对数据按多个维度进行重新组织，使数据在“多维空间上更内聚”；（3）带索引的列存文件结构：为多类场景设计了多个级别的索引，并融入了一些搜索的特性，有跨文件的多维索引，文件内的多维索引，每列的minmax索引，以及列内的倒排索引；（4）列组：整体上是一种列存结构。本发明专利技术便于从海量的历史、实时数据中快速获取有用信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种大数据系统中创建索引表的方法
：本专利技术涉及一种大数据系统中创建索引表的方法，属于互联网

技术介绍
：随着互联网数据规模的爆炸式增长，如何从海量的历史、实时数据中快速获取有用信息，变得越来越具有挑战性。搜索是获取信息最高效的途径之一，因此也是各类网站、应用的基础标配功能。开发者想在自己的产品中实现搜索功能一般都是基于某个开源搜索系统（如ElasticSearch、Solr、Sphinx）搭建搜索服务。然而，除了购买主机或托管服务器，从系统熟悉、服务搭建、功能定制，再到服务上线，通常需要耗费较长时间。
技术实现思路
：本专利技术的目的是针对上述存在的问题提供一种大数据系统中创建索引表的方法，便于从海量的历史、实时数据中快速获取有用信息。上述的目的通过以下的技术方案实现：一种大数据系统中创建索引表的方法，该方法包括：（1）基于数据字典的元数据存储，采用字典编码来加快计算速度，其使得处理/查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式；（2）多维数据聚集：在入库时对数据按多个维度进行重新组织，使...

【技术保护点】
一种大数据系统中创建索引表的方法，其特征是：该方法包括：（1）基于数据字典的元数据存储，采用字典编码来加快计算速度，其使得处理/查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式；（2）多维数据聚集：在入库时对数据按多个维度进行重新组织，使数据在“多维空间上更内聚”，在存储上获得更好的压缩率，在计算上获得更好的数据过滤效率；（3）带索引的列存文件结构：为多类场景设计了多个级别的索引，并融入了一些搜索的特性，有跨文件的多维索引，文件内的多维索引，每列的minmax索引，以及列内的倒排索引；索引和数据文件存放在一起，一部分索引本身就是数据...

【技术特征摘要】
1.一种大数据系统中创建索引表的方法，其特征是：该方法包括：（1）基于数据字典的元数据存储，采用字典编码来加快计算速度，其使得处理/查询引擎可以直接在编码好的数据上进行处理而不需要转换数据，数据只有在返回结果给用户的时候才转换成用户可读的形式；（2）多维数据聚集：在入库时对数据按多个维度进行重新组织，使数据在“多维空间上更内聚”，在存储上获得更好的压缩率，在计算上获得更好的数据过滤效率；（3）带索引的...

【专利技术属性】
技术研发人员：黄礼成，张蓉，姜雪，耿鹏舒，
申请(专利权)人：南京哈卢信息科技有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人