The present disclosure relates to a data aggregation method and device. The method includes: by analyzing the sample data corresponding to the target object, the grape string description model about the target object is established. The grape string description model includes the grape string center and the multiple grape string branches; in the case of obtaining the data to be aggregated, the values corresponding to the aggregated data are based on the values and each of the data to be aggregated. The value of the grape string branch is calculated to calculate the Euclidean distance of the pending data to each of the grape string branches, and the Euclidean distance of the grape string branches is determined according to the aggregated data, and the grape string branch corresponding to the aggregated data is determined, and the aggregated data are polymerized to the pending polymerization. The grape string branch that corresponds to the data. The data aggregation method and device in the public can quickly and efficiently aggregate the aggregated data, improve the ability of association and aggregation of mass data, and help to further the data mining and analysis.
【技术实现步骤摘要】
数据聚合方法及装置
本公开涉及大数据分析
,尤其涉及一种数据聚合方法及装置。
技术介绍
随着互联网技术的发展,计算机需要处理的数据量正在以惊人的速度增长。人类社会正由IT(InformationTechnology,信息技术)时代悄然进入DT(DataTechnology,数据处理技术)时代。大数据的出现给人们的生活带来了巨大的便利。同时,数据的多样性、复杂性以及体量的庞大性也使数据分析处理面临前所未有的挑战,如何将体量庞大的数据进行有效地分析处理,使之转变成为可以利用的知识和价值,成为人们关注的重点。相关技术中,数据挖掘技术已经扩展到社会网络分析、推荐系统分析和时空数据分析等研究领域。从任务分类的角度看,数据挖掘技术可以分为聚类分析、分类分析、关联分析和回归分析等。其中,聚类分析是活跃且具有挑战性的研究领域,其在识别数据的内在结构方面具有非常用重要的作用,已经成为数据挖掘、机器学习和人工智能等研究方向的重要研究内容之一。面对数据复杂性、计算复杂性和系统复杂性等多方面的挑战,传统的聚类算法的处理能力不再高效。首先,数据复杂性的挑战。数据的类型和模式具有多样性,数据的质量良莠不齐,造成数据在理解、计算与表达上面临了相当大的困难,语义的分析与情感的体会也变得非常复杂,很大程度上影响了数据组织模型的设计与制作。其次,计算复杂性的挑战。大数据的数据容量大、数据类型繁多、商业价值高和处理速度快等特点使得以往的机器学习、信息搜索以及数据收集不再适用,不能够进行全局式的数据分析与计算。再者,系统复杂性的挑战。由于受到时间、内存和CPU(CentralProcess ...
【技术保护点】
1.一种数据聚合方法,其特征在于,所述方法包括:通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。
【技术特征摘要】
1.一种数据聚合方法,其特征在于,所述方法包括:通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支;在获取到待聚合数据的情况下,根据所述待聚合数据对应的数值和各个所述葡萄串分支对应的数值,分别计算所述待聚合数据到各个所述葡萄串分支的欧氏距离;根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支;将所述待聚合数据聚合至所述待聚合数据对应的葡萄串分支。2.根据权利要求1所述的方法,其特征在于,通过对目标对象对应的抽样数据进行分析,建立关于所述目标对象的葡萄串描述模型,所述葡萄串描述模型包括葡萄串中心和多个葡萄串分支,包括:根据所述目标对象的类别,确定各个所述葡萄串分支;根据所述目标对象对应的抽样数据,计算所述葡萄串中心对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型。3.根据权利要求2所述的方法,其特征在于,根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,建立关于所述目标对象的葡萄串初始模型,包括:针对所述目标对象对应的每个抽样数据:根据所述抽样数据对应的数值和所述葡萄串分支对应的数值,计算所述抽样数据到各个所述葡萄串分支的欧氏距离;根据所述抽样数据到各个所述葡萄串分支的欧氏距离,确定所述抽样数据对应的葡萄串分支;根据所述葡萄串分支具有的抽样数据调整所述葡萄串分支对应的数值;根据所述葡萄串中心对应的数值和各个所述葡萄串分支对应的数值,计算各个所述葡萄串分支到所述葡萄串中心的欧氏距离;根据各个所述葡萄串分支到所述葡萄串中心的欧氏距离,建立关于所述目标对象的葡萄串初始模型。4.根据权利要求1所述的方法,其特征在于,根据所述待聚合数据到各个所述葡萄串分支的欧氏距离,确定所述待聚合数据对应的葡萄串分支,包括:从所述待聚合数据到各个所述葡萄串分支的欧氏距离中,确定取值最小的欧氏距离,并将取值最小的欧氏距离对应的葡萄串分支作为所述待聚合数据对应的葡萄串分支。5.一种数据聚合装置,其特征在于,所述装置包括:建立模块,用于通...
【专利技术属性】
技术研发人员:姜海,王忠儒,李海磊,
申请(专利权)人:北京丁牛科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。