数据处理方法及装置制造方法及图纸

技术编号:14412500 阅读:71 留言:0更新日期:2017-01-12 00:28
本发明专利技术公开了一种数据处理方法及装置,所述方法包括:对用户行为数据进行数据筛选处理,形成数据筛选结果;基于所述数据筛选结果,将用户行为数据划分为满足查询需求的摘要数据和满足数据分析处理的系统数据;其中,所述摘要数据归属于用户列表集;所述系统数据和所述摘要数据均属于系统数据集;基于所述系数数据集形成查询所述系统数据集的关联字段;其中,所述关联字段归属于用户明细集。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种数据处理方法及装置
技术介绍
随着信息技术和电子技术的发展,出现了大数据的概念和使用。大数据能够更好的实现数据共享。然而在现有技术中发现,目前数据处理中依然存在着大量的数据查询慢、数据处理效率低及消耗了大量的数据处理资源等问题。比如,基于Hbase数据库的数据处理,以行关键字(RowKey)进行查询时,速度快且效率高,但是以非行关键字进行查询时,通常会出现速率慢及处理效率低等问题。所述Hbase数据库为是一个分布式的、面向列的开源数据库,不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式的数据库。故在现有技术,提出一种数据处理效率高且查询速度快的数据处理方法,是亟待解决的问题。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种数据处理方法及装置,能够至少部分解决数据处理效率低或查询速度慢的问题。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术实施例第一方面提供了一种数据处理方法,所述方法包括:对用户行为数据进行数据筛选处理,形成数据筛选结果;基于所述数据筛选结果,将用户行为数据划分为满足查询需求的摘要数据和满足数据分析处理的系统数据;其中,所述摘要数据归属于用户列表集;所述系统数据和所述摘要数据均属于系统数据集;基于所述系数数据集形成查询所述系统数据集的关联字段;其中,所述关联字段归属于用户明细集。基于上述方案,所述方法还包括:基于所述系统数据集,建立与所述关联字段关联的主表。基于上述方案,所述用户列表集还包括摘要字段;其中,所述摘要字段与所述摘要数据具有映射关系,能够用于查询所述摘要数据。基于上述方案,所述摘要字段包括用户标识及查询时间。基于上述方案,所述方法还包括:基于所述用户列表集及所述用户明细集,建立索引表;其中,所述索引表的查询索引包括关联字段以及所述摘要字段基于上述方案,所述索引表还包括所述摘要数据。基于上述方案,所述方法还包括:接收基于用户输入形成的查询标签;将所述查询标签与所述索引表中的字段进行匹配;若所述查询标签与所述摘要字段相匹配,则基于所述摘要字段查询所述摘要数据,并返回所述摘要数据;若所述查询标签与所述关联字段相匹配,则基于所述关联字段,查询所述主表并返回查询结果。本专利技术实施例第二方面提供一种数据处理装置,所述装置包括:筛选单元,用于对用户行为数据进行数据筛选处理,形成数据筛选结果;划分单元,用于基于所述数据筛选结果,将用户行为数据划分为满足查询需求的摘要数据和满足数据分析处理的系统数据;其中,所述摘要数据归属于用户列表集;所述系统数据和所述摘要数据均属于系统数据集;生成单元,用于基于所述系数数据集形成查询所述系统数据集的关联字段;其中,所述关联字段归属于用户明细集。基于上述方案,所述装置还包括:第一建立单元,用于基于所述系统数据集,建立与所述关联字段关联的主表。基于上述方案,所述用户列表集还包括摘要字段;其中,所述摘要字段与所述摘要数据具有映射关系,能够用于查询所述摘要数据。基于上述方案,所述摘要字段包括用户标识及查询时间。基于上述方案,所述装置还包括:第二建立单元,用于基于所述用户列表集及所述用户明细集,建立索引表;其中,所述索引表的查询索引包括关联字段以及所述摘要字段基于上述方案,所述索引表还包括所述摘要数据。基于上述方案,所述装置还包括:接收单元,用于接收基于用户输入形成的查询标签;匹配单元,用于将所述查询标签与所述索引表中的字段进行匹配;第一查询单元,用于若所述查询标签与所述摘要字段相匹配,则基于所述摘要字段查询所述摘要数据,并返回所述摘要数据;第二查询单元,用于若所述查询标签与所述关联字段相匹配,则基于所述关联字段,查询所述主表并返回查询结果。本专利技术实施例所述的数据处理方法及装置,将形成用户列表集、用户明细集和系统数据集这三个数据集,用户列表集是用户通常会查询到的数据,放在用户列表集中,这样在进行一般数据查询时,用户列表集中的数据是小于所用用户行为数据的,从而减少检索量,从而提高了查询速度。同时形成了用户明细集,用户明细集内形成有关联字段,能够查询到系统数据集中不常查询的数据,且系统数据集中的数据方便进行系统分析处理,实践证明,数据冗余度小且冗余度可以根据需要通过调整数据集所包括数据实现冗余度的可控,从而减少了数据占用大量的存储和系统维护运行资源的现象。附图说明图1为本专利技术实施例所述的一种数据处理方法的流程示意图;图2为本专利技术实施例所述的一种数据处理方法的局部流程示意图;图3为本专利技术实施例所述的数据处理装置的结构示意图之一;图4为本专利技术实施例所述的数据处理装置的结构示意图之二;图5为本专利技术实施例所述的数据处理方法中数据划分的流程示意图;图6为本专利技术实施例所述的三种数据集之间的关系示意图;图7为本专利技术实施例所述的主表和索引表的效果示意。具体实施方式以下结合说明书附图及具体实施例对本专利技术的技术方案做进一步的详细阐述。方法实施例:如图1所示,本实施例提供了一种数据处理方法,所述方法包括:步骤S110:对用户行为数据进行数据筛选处理,形成数据筛选结果;步骤S120:基于所述数据筛选结果,将用户行为数据划分为满足查询需求的摘要数据和满足数据分析处理的系统数据;其中,所述摘要数据归属于用户列表集;所述系统数据和所述摘要数据均属于系统数据集;步骤S130:基于所述系数数据集形成查询所述系统数据集的关联字段;其中,所述关联字段归属于用户明细集。在本实施例中所述步骤S110中可以根据数据处理需求来进行所述数据筛选处理。通常需要满足普通用户查询需求的数据则应该属于一类的数据。这里满足用户查询需求可包括:满足用户对指定时间内发生的用户行为数据实时查询需求的数据。这里的指定时间可以为从当前时间开始,向前退一段时间内的数据。所述指定时间可为最近一个月内的用户行为数据。而所述系统数据集中的系统数据的话,可能是用户查询的概率较小的数据,具体如,根据对查询统计结果,将用户查询概率小于阈值或查询概率从高到低靠后的数据作为系统数据归属到系统数据集中。值得注意的是在本实施例中所述步骤S110中所述数据筛选处理,可认为是数据存储之前依据数据存储规则进行的数据分析和抽象,在存储空间上各个集合的数据都可以存储在一起,可以在存储逻辑上,这些数据归属于不同的集合。这里的集合可包括用户列表集和系统数据集等。数据在存储逻辑上的划分,可以通过数据指针以及数据标签等方式来实现。以HBase数据库中存储的数据为例,在主表中存储有P1列数据,在步骤S110中筛选出P2列作为所述摘要数据中的数据;所述P2为小于所述P1的正整数。在步骤S120中进行数据划分的过程中,还包括生成所述摘要数据的查询索引的步骤。实质上摘要数据相当于一个可查询的表,查询该表需要查询索引,该查询索引能够获取该摘要数据。如所述P2列数据中的每一行数据都对应一个查询的索引,该查询索引在所述HBase数据库中可称为RoWKey。当然,进行数据查询的用户可分为多个类别,具体如包括两个类别。在步骤S120中所述摘要数据可能是能够满足第一类用户查询需求的数据。这里的普通用户即为所述第一类用户,通常所述第一类用户即为权限本文档来自技高网...
数据处理方法及装置

【技术保护点】
一种数据处理方法,其特征在于,所述方法包括:对用户行为数据进行数据筛选处理,形成数据筛选结果;基于所述数据筛选结果,将用户行为数据划分为满足查询需求的摘要数据和满足数据分析处理的系统数据;其中,所述摘要数据归属于用户列表集;所述系统数据和所述摘要数据均属于系统数据集;基于所述系数数据集形成查询所述系统数据集的关联字段;其中,所述关联字段归属于用户明细集。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:对用户行为数据进行数据筛选处理,形成数据筛选结果;基于所述数据筛选结果,将用户行为数据划分为满足查询需求的摘要数据和满足数据分析处理的系统数据;其中,所述摘要数据归属于用户列表集;所述系统数据和所述摘要数据均属于系统数据集;基于所述系数数据集形成查询所述系统数据集的关联字段;其中,所述关联字段归属于用户明细集。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述系统数据集,建立与所述关联字段关联的主表。3.根据权利要求1所述的方法,其特征在于,所述用户列表集还包括摘要字段;其中,所述摘要字段与所述摘要数据具有映射关系,能够用于查询所述摘要数据。4.根据权利要求3所述的方法,其特征在于,所述摘要字段包括用户标识及查询时间。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于所述用户列表集及所述用户明细集,建立索引表;其中,所述索引表的查询索引包括关联字段以及所述摘要字段。6.根据权利要求5所述的方法,其特征在于,所述索引表还包括所述摘要数据。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:接收基于用户输入形成的查询标签;将所述查询标签与所述索引表中的字段进行匹配;若所述查询标签与所述摘要字段相匹配,则基于所述摘要字段查询所述摘要数据,并返回所述摘要数据;若所述查询标签与所述关联字段相匹配,则基于所述关联字段,查询所述主表并返回查询结果。8.一种数据处理装置,其特征在于,所述装置包括:筛选单元,用于对用户行为数据进行...

【专利技术属性】
技术研发人员:卢山
申请(专利权)人:中国移动通信集团山西有限公司
类型:发明
国别省市:山西;14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1