数据处理方法及设备技术

技术编号:11616639 阅读:54 留言:0更新日期:2015-06-17 16:12
本申请提供一种数据处理方法及设备。所述方法包括:响应于针对一数据集合的初始查询请求,通过读取一遍所述数据集合内的数据来得到基本直方图;以及基于预定的目标区间或目标组距由基本直方图得到与目标区间或目标组距对应的目标直方图,并呈现目标直方图。通过采用该方法,能够在多次变换目标直方图的过程中,使读取数据的次数减少为一次,即仅使用基本直方图就可实现直方图的变换。由此,大大提高了系统的计算速度及数据处理能力,而且,即使在大数据的情况下也能够快速地展示出直方图。

【技术实现步骤摘要】

本申请涉及数据处理
,尤其涉及一种基于直方图的数据处理方法及设备
技术介绍
一般地,当待分析数据的数量仅为几十个时,通过目测就可以得到数据的分析结果,但是当待分析数据的数量达到I千、I万、……I亿、10亿时,就可以使用直方图来分析数据。直方图(Histogram)是一种表现数据分布特征的统计图形,即用一组无间隔、等宽、高度不等的纵向线段或柱状直条表示数据分布的情况。例如,图1OA至图1OE是利用直方图分析数据的一例的示意图。图1OA是针对某待分析数据而得到的直方图,在将区间宽度(以下也称作“组距”)设为80的情况下,由图可知,数据大多集中在[480,560)和[0,80)这两个区间。当将组距从80变更为20时,如图1OB所示,可以看出数据较多的两个区间[500,520)和[0,20)优势非常明显。进而,在仅关注数据最多的区间[500, 520)并将组距变更为2时,如图1OC所示,可知在区间[510,512)上集中了绝大部分的数据。在同样的区间[500,520),将组距调整为0.1时,如图1OD所示,得出在这一区间内数据均出现在整数附近这样的结论。相对于此,当仅关注区间[0,20)时,如图1OE所示,这一区间内的数据分布与区间[500,520)完全不同,而是表现出呈对数分布的形状。由该示例可知,直方图有利于对待分析数据的分布的了解,通过改变组距(区间宽度)就能得出数据分布的更多信息,通过关注直方图中感兴趣的若干区域,能够比较直观地看出各个区域的数据分布特点。然而,当待分析数据的数据量较小时,每次为获得直方图而执行计算的时间很短,用户可以连续地变换显示组距(即直方图的组距),切换到各个感兴趣的区间,而没有明显的停顿感觉。但是,当待分析数据的数据量较大时,计算时间就会变长,导致在切换区间的过程中明显地出现画面不流畅的现象,使用户的体验下降。另外,对于存储在分布式系统的海量数据(即大数据),在用户改变需求而变换显示组距时,每次为获得直方图而执行的计算需要花费几分钟,才能显示出新的直方图。申请内容本申请的主要目的在于提供一种数据处理方法及设备,以解决现有技术存在的在直方图的计算过程中计算时间过长而导致用户体验下降等问题,其中:根据本申请的一个方面,提供一种数据处理方法,其特征在于,包括:响应于针对一数据集合的初始查询请求,通过读取一遍数据集合内的数据来得到基本直方图;以及基于预定的目标区间或目标组距,由基本直方图得到与目标区间或目标组距对应的目标直方图,并呈现目标直方图。根据本申请的另一方面,提供一种数据处理设备,其特征在于,包括:基本直方图获得装置,被配置成响应于针对一数据集合的初始查询请求,通过读取一遍数据集合内的数据来得到基本直方图;以及目标直方图获得装置,被配置成基于预定的目标区间或目标组距,由基本直方图得到与目标区间或目标组距对应的目标直方图,并呈现目标直方图。与现有技术相比,根据本申请的技术方案,通过读取一遍数据,计算出作为中间数据的组距非常小的直方图(称作“基本直方图”),然后根据用户的需求,并使用基本直方图来得到与用户需求相应的目标直方图。由此,在多次变换目标直方图的过程中,使读取数据的次数减少为一次,并且每次使用基本直方图就可实现直方图的变换。由此,大大提高了系统的计算速度及数据处理能力,而且,即使在大数据的情况下也能够快速地向用户展示出直方图。【附图说明】此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是本申请实施例的数据处理方法的概略流程图;图2是本申请实施例的获得基本直方图的流程图;图3是本申请实施例的通过分布式计算得到基本直方图的一例的示意图;图4是本申请实施例的获得节点基本直方图的流程图;图5是本申请实施例的合并节点基本直方图的流程图;图6是本申请实施例涉及的数据处理设备的结构示意图;图7是本申请实施例涉及的节点基本直方图获得装置的一例的结构示意图;图8是本申请实施例涉及的节点基本直方图获得装置的另一例的结构示意图;图9是本申请实施例涉及的直方图获得装置的一例的结构示意图;图1OA至图1OE是现有技术中利用直方图分析数据的一例的示意图。【具体实施方式】本申请的主要思想在于,对于大数据,为了达到仅读取一遍数据就能实现提供给用户流畅的直方图的查看功能这一目的,首先通过读取一遍数据来计算出作为中间数据的组距非常小的直方图(称作“基本直方图”),然后根据用户的需求,将基本直方图变换为与用户需求对应的目标直方图,即基于用户需求的目标区间或目标组距,使用基本直方图就可以得到目标直方图。从而,使得系统的计算速度及数据处理能力大幅度提高,而且即使在大数据的情况下也能够快速地展示出直方图以实现快速查看直方图的功能。这里需要说明的是,本申请中所称的大数据可以是指数据量级为几十GB以上的数据集合,并且可以为任意数据类型,诸如网络日志、视频、图片、地理位置信息等等。可以理解到,本申请的方案尤其适用于具有庞大数据量的大数据场景。与此同时,本申请的方案也同样可以适用于其它任意数据量级的数据处理场景。为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。<数据处理方法>根据本申请的实施例,提供了一种数据处理方法。经过该数据处理方法处理后的处理结果以直方图的形式显示给用户。在现有技术中,构成直方图的两个因素是组距和频数,直方图的一般计算方法是:(I)先读取一遍数据,计算出数据的最大值和最小值,从而得到极差即数据的最大值与最小值的差值。(2)根据用户的需求来确定直方图的组数,然后用此组数去除极差,可得到直方图的每组的宽度,即组距。(3)根据组距来确定各组的界限值。(4)再读取一遍数据,统计各组的频数。对于该方法,每当用户改变需求,即如图1OA至图1OE所示那样改变要显示的直方图的区间或组距时,都需要对全部数据读取两次并重新进行计算,才能得到与用户需求对应的直方图。并且,在直方图的计算过程中,由于需要读取两遍数据,所以数据处理的时间变长。这样,在数据量不断增大的情况下,导致数据处理的时间变长,用户的使用体验就会大大下降。鉴于上述问题,为了大幅度提高系统的数据处理能力,本申请从减少数据处理时间着手,即减少读取数据的次数。因此,本申请涉及的数据处理方法主要包括两个部分:一是通过自适应的计算方法得到一个组距非常小的基本直方图,以使得仅读取一遍数据就可以得到基本直方图;二是将基本直方图变换为与用户需求相应的目标直方图,以使得无需对数据进行重复的读取。参照图1,图1是本申请实施例的数据处理方法的概略流程图。在该图中,步骤SlOl是本申请涉及的以自适应方式处理数据的步骤,步骤S102是本申请涉及的基本直方图变换处理的步骤。下面,逐一详细地进行说明。〔自适应方式的数据处理〕具体来说,在步骤SlOl中,响应于针对一数据集合的初始查询请求,通过读取一遍所述数据集合内的数据来得到基本直方图。当用户想要查看某些数据分布情况时,可以发起针对相应数据集合的查询请求。在本申请中,将用户针对某一数据集合的首次查询称为初始查询请求。该初始查询请求可以是用户通过本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:响应于针对一数据集合的初始查询请求,通过读取一遍所述数据集合内的数据来得到基本直方图;以及基于预定的目标区间或目标组距,由所述基本直方图得到与所述目标区间或目标组距对应的目标直方图,并呈现所述目标直方图。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨旭蔡宁姜晓燕王少萌代斌
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1