数据处理方法和装置制造方法及图纸

技术编号:13506901 阅读:36 留言:0更新日期:2016-08-10 15:44
本申请公开了数据处理方法和装置。所述方法的一具体实施方式包括:获取待分析数据和待分析数据的聚合计算类型;基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据;对抽样数据进行聚合计算;展示抽样数据的聚合计算结果。该实施方式可以快速地提供部分具有参考价值的数据分析结果,提升了大规模数据聚合处理结果展示的效率。

【技术实现步骤摘要】
【专利摘要】本申请公开了数据处理方法和装置。所述方法的一【具体实施方式】包括:获取待分析数据和待分析数据的聚合计算类型;基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据;对抽样数据进行聚合计算;展示抽样数据的聚合计算结果。该实施方式可以快速地提供部分具有参考价值的数据分析结果,提升了大规模数据聚合处理结果展示的效率。【专利说明】数据处理方法和装置
本申请涉及计算机
,具体涉及电通信
,尤其涉及数据处理方法和装置。
技术介绍
随着互联网技术的发展,产生了越来越多的网络数据。后台数据分析服务器可以对产生的网络数据进行聚合分析,得出大数据量的网络行为的统计信息。通常后台服务器在完成所有待分析数据的聚合计算后,将聚合计算的结果展示给用户。对于超大规模的网络数据,由于服务器系统资源、计算能力的限制,聚合操作需要消耗较长的时间,无法实时展示聚合结果。这时,展示结果页面会停滞在等待结果返回的状态,为用户提供统计分析结果的效率较低。
技术实现思路
有鉴于此,期望能够提供一种快速展示聚合结果的数据分析处理方法。为了解决上述技术问题,本申请提供了数据处理的方法和装置。—方面,本申请提供了一种数据处理方法,包括:获取待分析数据和所述待分析数据的聚合计算类型;基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据;对所述抽样数据进行聚合计算;展示所述抽样数据的聚合计算结果。在一些可选的实现方式中,所述基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据,包括:基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量;根据所述抽样数据量,从所述待分析数据中抽取出所述抽样数据。在一些可选的实现方式中,所述基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量,包括:将所述待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第一关系模型;根据所述第一关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。在一些可选的实现方式中,所述方法还包括训练所述第一计算复杂度模型的步骤,包括:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第一计算复杂度模型。在一些可选的实现方式中,所述方法还包括:获取可用的计算资源余量;所述基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量,包括:将所述待分析数据的聚合计算类型、所述计算资源余量输入已训练的第二计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第二关系模型;根据所述第二关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。在一些可选的实现方式中,所述方法还包括训练所述第二计算复杂度模型的步骤,包括:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第二计算复杂度模型。在一些可选的实现方式中,所述计算复杂度包括:计算耗时和/或计算所需的资源量。第二方面,本申请提供了一种数据处理装置,包括:第一获取单元,用于获取待分析数据和所述待分析数据的聚合计算类型;抽样单元,用于基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据;计算单元,用于对所述抽样数据进行聚合计算;展示单元,用于展示所述抽样数据的聚合计算结果。在一些可选的实现方式中,所述抽样单元用于按如下方式对所述待分析数据进行抽样,得到抽样数据:基于所述聚合计算类型和预设的计算复杂度确定所述待分析数据的抽样数据量;根据所述抽样数据量,从所述待分析数据中抽取出所述抽样数据。在一些可选的实现方式中,所述抽样单元进一步按照如下方式确定所述待分析数据的抽样数据量:将所述待分析数据的聚合计算类型输入已训练的第一计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第一关系模型;根据所述第一关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。在一些可选的实现方式中,所述装置还包括第一训练单元,用于按照如下方式训练所述第一计算复杂度模型:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第一计算复杂度模型。在一些可选的实现方式中,所述装置还包括:第二获取单元,用于获取可用的计算资源余量;所述抽样单元进一步按照如下方式确定所述待分析数据的抽样数据量:将所述待分析数据的聚合计算类型、所述计算资源余量输入已训练的第二计算复杂度模型,得出所述待分析数据的计算复杂度与待分析数据量之间的第二关系模型;根据所述第二关系模型确定对应于所述预设的计算复杂度的待分析数据量,作为所述抽样数据量。在一些可选的实现方式中,所述装置还包括第二训练单元,用于按如下方式训练所述第二计算复杂度模型:获取历史数据分析记录,所述历史数据分析记录包括至少一个历史数据集合的数据量,以及对应的历史计算复杂度、历史计算资源余量和历史聚合计算类型;根据所述历史数据分析记录训练得出所述第二计算复杂度模型。在一些可选的实现方式中,所述计算复杂度包括:计算耗时和/或计算所需的资源量。本申请提供的数据处理方法和装置,通过获取待分析数据和所述待分析数据的聚合计算类型,随后基于聚合计算类型和预设的计算复杂度对待分析数据进行抽样,得到抽样数据,而后对抽样数据进行聚合计算,最后展示抽样数据的聚合计算结果,从而能够快速地提供部分具有参考价值的数据分析结果,提升了大规模数据聚合处理结果展示的效率。【附图说明】通过阅读参照以下附图所作的对非限制性实施例详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的数据处理方法的一个实施例的流程图;图3是根据本申请的数据处理方法的原理示意图;图4是根据本申请的数据处理方法的另一个实施例的流程图;图5是根据本申请的数据处理方法的再一个实施例的流程图;图6是本申请数据处理装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。【具体实施方式】下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户110可以使用终端设备101、102、103通过网络本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:获取待分析数据和所述待分析数据的聚合计算类型;基于所述聚合计算类型和预设的计算复杂度对所述待分析数据进行抽样,得到抽样数据;对所述抽样数据进行聚合计算;展示所述抽样数据的聚合计算结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:汪敏峰
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1