本发明专利技术实施例公开了一种数据索引方法及装置。本发明专利技术实施例提供的数据索引方法及装置,根据N个维度获取与N个维度对应的、且相互独立的N个单维索引,判断与所述维度相对应的N个所述相互独立的单维索引包含的地址记录是否有交集,以获取交集相对应的地址记录所指向的数据为索引目标数据。解决了单维索引技术无法满足多维索引组合查询以及多维分析的需求。以及通过确定与N个所述单维索引包含的地址记录相对应的标签数标志位的计数值的大小,简单方便地满足了多维分析的速度要求,降低了索引的复杂度,提升了数据精确索引数据的性能。
【技术实现步骤摘要】
本专利技术涉及数据索引
,具体涉及数据的索引方法及装置。
技术介绍
随着商业智能(Business Intelligent)的发展,在电信业务质量管理、网络性能管理、互联网应用分析等多种领域需要对海量数据进行快速统计以及索引,一般的单维索引技术已经满足不了对海量数据进行快速存储、统计以及索引的高要求。目前,采用分布式存储系统(HadoopDatabase)的数据索引技术解决了海量数据的索引问题,主要通过对海量数据进行区域划分建立索引数据,并以列存储形式存储在不 同的域存储器上,依据单维索弓I技术索弓I数据。基于分布式存储系统(Hadoop Database )的数据建立的单维索引技术只能建立有限的索引数据,大量的索引数据必须在外部存储介质上存储。而且单维索引技术无法满足多维分析以及多维索引组合查询的需求,增加大量数据后单维索引速度存在衰减,继而不能快捷方便地查询目标数据,应用普遍性受限。因此,为了满足海量数据的快速统计以及索引,多维索引技术成为新的研究方向。
技术实现思路
鉴于此,本专利技术实施例提供了一种数据索引方法及装置,解决了单位索引应用普遍性受限,索引效率低的问题。本专利技术实施例一方面提供的一种数据索引方法,包括获取与N个维度对应的、且相互独立的N个单维索引;所述N大于等于2;判断所述N个单维索引中包含的地址记录是否有交集;若有交集,则获取所述交集对应的地址记录所指向的数据作为索引目标数据。作为一种可选的实施方式,所述判断所述N个单维索引中包含的地址记录是否有交集包括以下步骤判断所述N个单维索引中包含的地址记录是否存在相同地址记录;若存在,则确认所述N个单维索引中包含的地址记录有交集。作为一种可选的实施方式,所述判断所述N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤根据N个维度获取所述N个维度相对应的单维索引的地址记录;对所述地址记录对应的标签数标志位的计数值加I ;判断所述地址记录对应的标签数标志位的计数值是否等于所述N ;如果是,则选取所述地址记录对应的标签数标志位的计数值等于所述N的地址记录作为相同地址记录。作为一种可选的实施方式,所述判断所述N个单维索引包含的地址记录是否存在相同地址记录包括以下步骤A、从所述N个单维索引中获取第K个单维索引作为当前单维索引,其中,K小于所述N且K大于零;B、获取所述当前单维索引的地址记录;C、对与所述地址记录相对应的标签数标志位的计数值加I ;D、从所述N个单维索引中获取第K+1个单维索引,作为当前单维索引;E、判断K+1是否等于N ;如果不等于N则执行步骤B ;F、根据K+1等于N的结果,则获取第N个单维索引的地址记录;G、判断所述第N个单维索引的地址记录相对应的标签数标志位的计数值是否等于 N-I ; H、如果是,则选取所述第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-I的所述地址记录,作为相同地址记录。作为一种可选的实施方式,对与所述地址记录相对应的标签数标志位进行计数之前,所述方法还包括初始化清零与所述地址记录对应的标签数标志位的计数值。作为一种可选的实施方式,所述获取与N个维度对应的、且相互独立的N个单维索引之前,所述方法还包括根据元数据将若干数据进行分区存储,生成i个分区存储区;根据分类标准对每个分区存储区中的数据建立互相独立的单维索引;存储所述每个分区存储区及所述每个分区存储区对应包含的单维索引至相同的存储处理节点上,以生成包含i个不同存储处理节点的索引表。作为一种可选的实施方式,所述索引表包含键值表和地址分配表,所述地址分配表记录了每个单维索引的键值对应的地址记录,所述键值表包括每个单维索引的键值及与所述键值对应的存储地址,与所述键值对应的存储地址用于指向所述键值对应的地址记录;所述地址记录表示数据记录在分区存储区中的偏移位置,包括记录号和记录长度。作为一种可选的实施方式,所述键值表的存储方式包括有序线性存储方式或者二叉树存储方式。作为一种可选的实施方式,所述地址分配表的存储方式米用分块存储方式。本专利技术实施例的另一方面提供了一种数据索引装置,包括第一单元,用于获取与N个维度对应的、且相互独立的N个单维索引;所述N大于等于2 ;第二单元,用于判断所述N个单维索引包含的地址记录是否有交集;第三单元,用于获取所述交集对应的地址记录所指向的数据作为索引目标数据。作为一种可选的实施方式,所述第二单元,具体用于判断所述N个单维索引中包含的地址记录是否存在相同地址记录;若存在,则确认所述N个单维索引中包含的地址记录有交集。作为一种可选的实施方式,所述第二单元包括第一子单元,用于获取所述N个单维索引的地址记录;第二子单元,用于对所述地址记录对应的标签数标志位的计数值加I ;第三子单元,用于判断所述地址记录对应的标签数标志位的计数值是否等于所述N;第四子单元,用于根据第三子单元判断所述地址记录对应的标签数标志位的计数值等于所述N的判断通知,选取所述地址记录对应的标签数标志位的计数值等于所述N的地址记录作为相同地址记录。作为一种可选的实施方式,所述第二单元包括第一获取单元,用于从所述N个单维索引中获取第K个单维索引作为当前单维索弓丨,其中,K小于所述N且K大于零;第二获取单元,用于获取所述当前单维索引的地址记录; 计数单元,用于对与所述当前单维索引的地址记录相对应的标签数标志位的计数值加I ;所述第一获取单元,还用于从所述N个单维索引中获取第K+1个单维索引,作为当前单维索引; 控制单元,用于判断K+1是否等于N ;如果不等于N,则控制第二获取单元获取所述当前单维索引的地址记录;所述第一获取单元,还用于根据所述控制单元判断K+1等于N的结果,获取第N个单维索引的地址记录;所述控制单元,还用于判断所述第N个单维索引的地址记录相对应的标签数标志位的计数值是否等于N-I ;所述第一获取单元,还用于根据所述控制单元判断所述第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-I的判断通知,选取所述第N个单维索引的地址记录相对应的标签数标志位的计数值等于N-I的所述地址记录,作为相同地址记录。作为一种可选的实施方式,所述第二单元还包括初始化单元,用于初始化清零与所述地址记录对应的标签数标志位的计数值。作为一种可选的实施方式,所述数据索引装置还包括分区存储单元,用于根据元数据将若干数据进行分区存储,生成i个分区存储区;处理单元,用于根据分类标准对每个分区存储区中的数据建立互相独立的单维索弓I ;所述处理单元,还用于存储所述每个分区存储区及所述每个分区存储区对应包含的单维索引至相同的存储处理节点上,以生成包含i个不同存储处理节点的索引表。作为一种可选的实施方式,所述索引表包含键值表和地址分配表,所述地址分配表记录了每个单维索引的键值对应的地址记录,所述键值表包括每个单维索引的键值及与所述键值对应的存储地址,与所述键值对应的存储地址用于指向所述键值对应的地址记录;所述地址记录表示数据记录在分区存储区中的偏移位置,包括记录号和记录长度。作为一种可选的实施方式,所述键值表的存储方式包括有序线性存储方式或者二叉树存储方式。作为一种可选的实施方式,所述地址分配表的存储方式米用分块存储方式。本专利技术实施例提供的数据索引方法,根据N个维度获取与N本文档来自技高网...
【技术保护点】
一种数据索引方法,其特征在于,包括:获取与N个维度对应的、且相互独立的N个单维索引;所述N大于等于2;判断所述N个单维索引中包含的地址记录是否有交集;若有交集,则获取所述交集对应的地址记录所指向的数据作为索引目标数据。
【技术特征摘要】
【专利技术属性】
技术研发人员:杨建洲,王新宇,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。