一种用于电力大数据高效组合查询的实时索引方法技术

技术编号:19480178 阅读:81 留言:0更新日期:2018-11-17 10:33
一种用于电力大数据高效组合查询的实时索引方法,涉及电力信息化技术技术领域,它包括以下步骤:s1:利用实时索引图技术,为电力大数据建立立体的索引系统;s2:利用多条件组合查询方法创建索引;s3:建立多条件组合查询方法创建索引。采用实时索引图技术,实现多条件列索引的建立和高效组合查询,通过建立索引图为每个查询专门1创建复合索引,避免了进行全表逐行扫描,大大提升了电力大数据组合查询的速度。

【技术实现步骤摘要】
一种用于电力大数据高效组合查询的实时索引方法
本专利技术涉及变电设备缺陷趋势分析
,具体涉及一种用于电力大数据高效组合查询的实时索引方法。
技术介绍
随着电力系统数字化进程的推进,电力系统积累了大量的发、输、用电数据。目前仅江苏省用电信息系统历年保存下来的全省用电信息数据已达到几十TB,如何利用现有的大数据分析技术,挖掘电力大数据的潜在价值,使得电力企业为客户提供更好的服务,是一个值得研究的课题。而2013年《中国电力大数据发展白皮书》的发布,将中国的电力大数据研究推向了一个新的起点,对中国电力大数据的研究与应用有着划时代的意义。电力大数据其特征可概括为3“V”和3“E”,3“V”代表体量大(Volume),类型多(Variety)和速度快(Velocity),3“E”代表数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy)。在用电大数据中,这样的概括同样适用。大数据基础之上创建高效索引虽然非常之难,但显而易见的是,大数据对索引的需求相比传统数据库更加迫切:传统数据库在几十万、几百万数据量的情况下需要使用索引才能提供满足要求的查询性能,那么专注于处理动辄几百亿、几千亿数据量的大数据技术如果不提供索引又如何能满足性能需求呢?传统数据库的索引其实都是一种单索引结构,虽然很多基于Hadoop的大数据产品可以支持复合索引,然而这种复合索引其本质依然是单索引,即一次查询只能用一个索引,所谓复合索引也只是将多个字段简单拼接。单索引的效率可以满足用户单条件的查询,而传统的复合索引由于其拼接的技术过于简单,因此也只能支持单一的查询,如果用户的查询条件更复杂、条件组合更灵活时,它就完全不能满足用户的需求了。目前比较常见的大数据解决方案为Hadoop+HBase,该解决方案通过搭建分布式处理软件框架和分布式存储系统,在进行数据查询时需要对数据块按行检索,但是查询速度远无法满足实时的需求。
技术实现思路
本专利技术的目的就是为了解决上述技术问题,而提供一种用于电力大数据高效组合查询的实时索引方法。本专利技术包括以下步骤:s1:利用实时索引图技术,为电力大数据建立立体的索引系统;s2:利用多条件组合查询方法创建索引;s3:建立多条件组合查询方法创建索引。所述步骤s1具体方法为:首先利用第一个域进行排序,建立若干索引起始点,然后使用hash技术将索引分段,构建一个多级立体式的索引分段系统。所述步骤s2具体方法为:当用户使用条件组合进行数据查询时,数据库引擎会依据自身的独有机制实时使用这些原本独立创建索引提供任意组合的多条件的数据查询。所述步骤s2中若使用没有创建索引的字段与其它已经创建了索引的字段进行组合查询,系统首先智能地去判断,发现其中的几个字段已有索引,将优先使用这几个字段初步判断与过滤,得到一组中间查询结果;对于并未建立索引的其它字段,需要再对中间结果数据进行逐条扫描。所述步骤s3具体包括如下步骤:t1.用户从客户端输入SQL命令;t2.通过JDBC和HBase连接到索引数据库;t3.解析SQL命令,从索引数据库找到对应的索引文件;t4.对索引文件进行修剪,形成针对具体查询命令的实时索引图;t5.通过实时索引图,得到需要查询的HFile的RowKey;t6.HBase根据RowKey从HDFS取数据;t7.将查询结果返回用户。所述步骤t2具体方法为:当HBase读入新增数据时,所有数据同步被送到指定的查询加速服务器,按指定关键字和日期对某个字段进行数值的统计,并建立查询索引;当用户向HBase发出查询请求时,该请求被即时送到特制的查询引擎,根据查询条件返回对应的索引地址,通过索引地址找到原始数据,并返回结果。本专利技术具有以下优点:采用实时索引图技术,实现多条件列索引的建立和高效组合查询,通过建立索引图为每个查询专门1创建复合索引,避免了进行全表逐行扫描,大大提升了电力大数据组合查询的速度。附图说明图1是本专利技术的实时索引图的一个索引实施例的示意图。图2是本专利技术的电力大数据组合查询的流程示意图。具体实施方式下面结合附图对本专利技术做进一步说明。如图1、2所示,本专利技术包括以下步骤:s1:利用实时索引图技术,为电力大数据建立立体的索引系统;s2:利用多条件组合查询方法创建索引;s3:建立多条件组合查询方法创建索引。所述步骤s1具体方法为:首先利用第一个域进行排序,建立若干索引起始点,然后使用hash技术将索引分段,构建一个多级立体式的索引分段系统。所述步骤s2具体方法为:当用户使用条件组合进行数据查询时,数据库引擎会依据自身的独有机制实时使用这些原本独立创建索引提供任意组合的多条件的数据查询。所述步骤s2中若使用没有创建索引的字段与其它已经创建了索引的字段进行组合查询,系统首先智能地去判断,发现其中的几个字段已有索引,将优先使用这几个字段初步判断与过滤,得到一组中间查询结果;对于并未建立索引的其它字段,需要再对中间结果数据进行逐条扫描。所述步骤s3具体包括如下步骤:t1.用户从客户端输入SQL命令;t2.通过JDBC和HBase连接到索引数据库;t3.解析SQL命令,从索引数据库找到对应的索引文件;t4.对索引文件进行修剪,形成针对具体查询命令的实时索引图;t5.通过实时索引图,得到需要查询的HFile的RowKey;t6.HBase根据RowKey从HDFS取数据;t7.将查询结果返回用户。所述步骤t2具体方法为:当HBase读入新增数据时,所有数据同步被送到指定的查询加速服务器,按指定关键字和日期对某个字段进行数值的统计,并建立查询索引;当用户向HBase发出查询请求时,该请求被即时送到特制的查询引擎,根据查询条件返回对应的索引地址,通过索引地址找到原始数据,并返回结果。上述术语的含义:DIG(dynamicindexgraph)即实时索引图技术。Hash,一般翻译做“散列”,就是把任意长度的输入(又叫做预映射,pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。SQL(StructuredQueryLanguage)即结构化查询语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。HBase即HadoopDatabase,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。JDBC(JavaDataBaseConnectivity)即java数据库连接,是一种用于执行SQL语句的JavaAPI,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。RowKey相当于mysql数据库中的primarykey,它就是那几个主键列的组合,列的顺序与primarykey中定义的顺序一致。HDFS即HadoopDistributedFileSystem,是一个分布式文件系统。工作原理:DIG技术是一种基于分布式存储,分布式计算的索引构架,它对数据建立了一套立体的索引系统。这套索引系统首先利用第一个域进行排序,建立若干索引起始点,使用hash技术将索引分段,由第一个域的这些起始点指向下一个域的分段,以此类推,构建一个多级立体式的索引分段系统。当某一分段较疏松时,适用合并减少分段,当某一分本文档来自技高网
...

【技术保护点】
1.一种用于电力大数据高效组合查询的实时索引方法,其特征在于它包括以下步骤:s1:利用实时索引图技术,为电力大数据建立立体的索引系统;s2:利用多条件组合查询方法创建索引;s3:建立多条件组合查询方法创建索引。

【技术特征摘要】
1.一种用于电力大数据高效组合查询的实时索引方法,其特征在于它包括以下步骤:s1:利用实时索引图技术,为电力大数据建立立体的索引系统;s2:利用多条件组合查询方法创建索引;s3:建立多条件组合查询方法创建索引。2.根据权利要求1所述的一种用于电力大数据高效组合查询的实时索引方法,其特征在于所述步骤s1具体方法为:首先利用第一个域进行排序,建立若干索引起始点,然后使用hash技术将索引分段,构建一个多级立体式的索引分段系统。3.根据权利要求1所述的一种用于电力大数据高效组合查询的实时索引方法,其特征在于所述步骤s2具体方法为:当用户使用条件组合进行数据查询时,数据库引擎会依据自身的独有机制实时使用这些原本独立创建索引提供任意组合的多条件的数据查询。4.根据权利要求1所述的一种用于电力大数据高效组合查询的实时索引方法,其特征在于所述步骤s2中若使用没有创建索引的字段与其它已经创建了索引的字段进行组合查询,系统首先智能地去判断,发现其中的几个字段已有索引,将优先使用这几个字段初步判断与过滤...

【专利技术属性】
技术研发人员:冷喜武蒋宇王洪哲江叶峰白玉东吴海斌杨笑宇武江曹宇
申请(专利权)人:国家电网公司国网江苏省电力公司国网辽宁省电力有限公司国网江苏省电力公司徐州供电公司国网江苏省电力公司常州供电公司北京科东电力控制系统有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1