数据聚合方法及装置制造方法及图纸

技术编号:18591961 阅读:22 留言:0更新日期:2018-08-04 20:01
本公开涉及一种数据聚合方法及装置。该方法包括:通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。本公开的数据聚合方法及装置,能够快速有效地对待聚合数据进行聚合,提高了对海量数据进行关联和聚合的能力,有助于后续对数据进行深度挖掘和分析。

Data aggregation method and device

The present disclosure relates to a data aggregation method and device. The method includes: by analyzing the sample data corresponding to the target object, the grape string description model about the target object is established. The grape string description model includes the grape string center and the multiple grape string branches; in the case of obtaining the data to be aggregated, the values corresponding to the aggregated data are based on the values and each of the data to be aggregated. The value of the grape string branch is calculated to calculate the Euclidean distance of the pending data to each of the grape string branches, and the Euclidean distance of the grape string branches is determined according to the aggregated data, and the grape string branch corresponding to the aggregated data is determined, and the aggregated data are polymerized to the pending polymerization. The grape string branch that corresponds to the data. The data aggregation method and device in the public can quickly and efficiently aggregate the aggregated data, improve the ability of association and aggregation of mass data, and help to further the data mining and analysis.

【技术实现步骤摘要】
数据聚合方法及装置
本公开涉及大数据分析
,尤其涉及一种数据聚合方法及装置。
技术介绍
随着互联网技术的发展,计算机需要处理的数据量正在以惊人的速度增长。人类社会正由IT(InformationTechnology,信息技术)时代悄然进入DT(DataTechnology,数据处理技术)时代。大数据的出现给人们的生活带来了巨大的便利。同时,数据的多样性、复杂性以及体量的庞大性也使数据分析处理面临前所未有的挑战,如何将体量庞大的数据进行有效地分析处理,使之转变成为可以利用的知识和价值,成为人们关注的重点。相关技术中,数据挖掘技术已经扩展到社会网络分析、推荐系统分析和时空数据分析等研究领域。从任务分类的角度看,数据挖掘技术可以分为聚类分析、分类分析、关联分析和回归分析等。其中,聚类分析是活跃且具有挑战性的研究领域,其在识别数据的内在结构方面具有非常用重要的作用,已经成为数据挖掘、机器学习和人工智能等研究方向的重要研究内容之一。面对数据复杂性、计算复杂性和系统复杂性等多方面的挑战,传统的聚类算法的处理能力不再高效。首先,数据复杂性的挑战。数据的类型和模式具有多样性,数据的质量良莠不齐,造成数据在理解、计算与表达上面临了相当大的困难,语义的分析与情感的体会也变得非常复杂,很大程度上影响了数据组织模型的设计与制作。其次,计算复杂性的挑战。大数据的数据容量大、数据类型繁多、商业价值高和处理速度快等特点使得以往的机器学习、信息搜索以及数据收集不再适用,不能够进行全局式的数据分析与计算。再者,系统复杂性的挑战。由于受到时间、内存和CPU(CentralProcessingUnit,中央处理器)等资源的限制,存在计算周期长、难度高的问题,这一问题不仅给大数据处理系统的整体结构、计算机构以及计算方式提出了更加严峻的挑战,同时也在数据处理系统的运行速度及其耗能方面都造成了巨大的挑战。
技术实现思路
有鉴于此,本公开提出了一种数据聚合方法及装置,以解决相关技术中的聚类算法无法对海量数据进行有效处理的问题。根据本公开的一方面,提供了一种数据聚合方法,所述方法包括:通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。在一种实现方式中,通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支,包括:根据所述目标对象的类别,确定各个所述葡萄串分支;根据所述目标对象对应的抽样数据,计算所述葡萄串中心对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型。在一种实现方式中,根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型,包括:针对所述目标对象对应的每个抽样数据:根据所述抽样数据对应的数值和所述葡萄串分支对应的数值,计算所述抽样数据到各个所述葡萄串分支的欧氏距离;根据所述抽样数据到各个所述葡萄串分支的欧氏距离,确定所述抽样数据对应的葡萄串分支;根据所述葡萄串分支具有的抽样数据调整所述葡萄串分支对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,计算各个所述葡萄串分支到所述葡萄串中心的欧氏距离;根据各个所述葡萄串分支到所述葡萄串中心的欧氏距离,建立关于所述目标对象的葡萄串初始模型。在一种实现方式中,根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支,包括:从所述待聚合数据到各个所述葡萄串分支的欧氏距离中,确定取值最小的欧氏距离,并将取值最小的欧氏距离对应的葡萄串分支作为所述待聚合数据对应的葡萄串分支。根据本公开的另一方面,提供了一种数据聚合装置,所述装置包括:建立模块,用于通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;计算模块,用于在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;确定模块,用于根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;聚合模块,用于将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。在一种实现方式中,所述建立模块包括:确定子模块,用于根据所述目标对象的类别,确定各个所述葡萄串分支;计算子模块,用于根据所述目标对象对应的抽样数据,计算所述葡萄串中心对应的数值;建立子模块,用于根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型。在一种实现方式中,所述建立子模块用于:针对所述目标对象对应的每个抽样数据:根据所述抽样数据对应的数值和所述葡萄串分支对应的数值,计算所述抽样数据到各个所述葡萄串分支的欧氏距离;根据所述抽样数据到各个所述葡萄串分支的欧氏距离,确定所述抽样数据对应的葡萄串分支;根据所述葡萄串分支具有的抽样数据调整所述葡萄串分支对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,计算各个所述葡萄串分支到所述葡萄串中心的欧氏距离;根据各个所述葡萄串分支到所述葡萄串中心的欧氏距离,建立关于所述目标对象的葡萄串初始模型。在一种实现方式中,所述确定模块用于:从所述待聚合数据到各个所述葡萄串分支的欧氏距离中,确定取值最小的欧氏距离,并将取值最小的欧氏距离对应的葡萄串分支作为所述待聚合数据对应的葡萄串分支。根据本公开的另一方面,提供了一种数据聚合装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。本公开的数据聚合方法及装置,通过对目标对象对应的抽样数据进行分析,建立关于该目标对象的葡萄串描述模型,该葡萄串描述模型包括葡萄串中心和多个葡萄串分支,在获取到待聚合数据的情况下,根据待聚合数据对应的数值和各个葡萄串分支对应的数值,分别计算待聚合数据到各个葡萄串分支的欧氏距离,根据待聚合数据到各个葡萄串分支的欧氏距离,确定待聚合数据对应的葡萄串分支,将待聚合数据聚合至待聚合数据对应的葡萄串分支,由此能够快速有效地对待聚合数据进行聚合,提高了对海量数据进行关联和聚合的能力,有助于后续对数据进行深度挖掘和分析。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。图1示出根据本公开一实施例的数据聚合方法的流程图。图2示出根据本公开一实施例的葡萄串描述模型的示意图。本文档来自技高网
...

【技术保护点】
1.一种数据聚合方法,其特征在于,所述方法包括:通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。

【技术特征摘要】
1.一种数据聚合方法,其特征在于,所述方法包括:通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。2.根据权利要求1所述的方法,其特征在于,通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支,包括:根据所述目标对象的类别,确定各个所述葡萄串分支;根据所述目标对象对应的抽样数据,计算所述葡萄串中心对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型。3.根据权利要求2所述的方法,其特征在于,根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型,包括:针对所述目标对象对应的每个抽样数据:根据所述抽样数据对应的数值和所述葡萄串分支对应的数值,计算所述抽样数据到各个所述葡萄串分支的欧氏距离;根据所述抽样数据到各个所述葡萄串分支的欧氏距离,确定所述抽样数据对应的葡萄串分支;根据所述葡萄串分支具有的抽样数据调整所述葡萄串分支对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,计算各个所述葡萄串分支到所述葡萄串中心的欧氏距离;根据各个所述葡萄串分支到所述葡萄串中心的欧氏距离,建立关于所述目标对象的葡萄串初始模型。4.根据权利要求1所述的方法,其特征在于,根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支,包括:从所述待聚合数据到各个所述葡萄串分支的欧氏距离中,确定取值最小的欧氏距离,并将取值最小的欧氏距离对应的葡萄串分支作为所述待聚合数据对应的葡萄串分支。5.一种数据聚合装置,其特征在于,所述装置包括:建立模块,用于通...

【专利技术属性】
技术研发人员:姜海王忠儒李海磊
申请(专利权)人:北京丁牛科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1