一种基于云计算平台的大数据处理方法技术

技术编号:13672538 阅读:109 留言:0更新日期:2016-09-07 20:51
本发明专利技术涉及互联网信息处理技术领域,特别涉及一种基于云计算平台的大数据处理方法,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出目标信息的关联信息。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。本发明专利技术采用大数据处理框架可以在纷繁复杂的互联网信息中,根据需要分析出海量目标信息背后隐含的关联信息;为数据信息的深度挖掘和应用提供了可靠便捷的途径,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了有效技术支撑。

【技术实现步骤摘要】

本专利技术涉及本专利技术涉及互联网
,特别涉及一种基于云计算平台的大数据处理方法
技术介绍
随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征:即数据量大、类型繁多、价值密度低、速度快时效高;作为其中最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而关联关系通过是隐
藏的,需要人们在复杂繁琐的数据中去挖掘和分析,要分析这些的隐含关联关系在海量的数据面前将变得更加困难,如果这些任务通过个人逐个实现,将耗费巨大的人力和时间成本;急需一种分析实现方法,帮助分析者来实现这种巨大繁琐的计算过程,提供这种分析结果。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的不足,提供一种基于云计算平台的大数据处理方法,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出目标信息的N度关联信息。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。具体的,所述专利技术方法包含以下实现步骤:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息;依次类推,抽象出以第一信息的N度关联信息,其中N≥1。其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本专利技术方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和关联度数。而且本专利技术关联关系的计算是以云计算平台的大数据处理框架来实现的,可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理,计算效率极高,显著节省人力。作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Hadoop下的MapReduce计算框架来实现。作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Spark计算框架来实现。使用类Hadoop系统的Sparkd大数据处理框架来实现关联关系的计算,Spark作为MapReduce的替代方案,可以兼容HDFS分布式存储层,可以融入Hadoop的生态系统圈。Spark是可以搭建大数据内存计算平台,并充分利用内存计算,实现海量数据的实时处理。进一步的,所述步骤(2)、(3)中的关联关系通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现:比如说:在一张数据表中包含结构化的两列信息:第一信息,第二信息;第二信息,第三信息;则通过join算法,可以很方便的将第一信息和第二信息经过第二信息连接到一起,形成了第一信息,第二信息,第三信息的新数据结果。类似的,所述N度关联信息也通过join语句来实现。本专利技术中的数据记录存储于数据库中,所述数据记录的原始的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。进一步的,所述数据记录可以根据需要设置字段,从原始信息中提取出来,将提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。进一步的,所述二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。进一步的,所述N度关联信息,按照关联度依次增加的顺序结
构进行存储;并将属于不同关联度的信息单元打上对应的标记。作为一种优选,所述数据记录以及N度关联信息以数据表的形式进行存储,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。进一步的,所述数据记录,和本方法计算出的N度关联数据分别存储于不同的非关系型数据库中。将各度关联数据存储于不同的数据库中,方便在后续的步骤中根据不同的数据库名进行相应的数据内容,方便数据的读取和进行相应的操作。进一步的,所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。进一步的,在所述方法的基础上提供一种目标背景信息分析方
法,上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析,用户根据需要设置分析字段从相关的网页中提取数据,形成相应的数据记录在形成数据记录的基础上,采用本专利技术方法,逐级搜索和抽象出目标信息的N度关联方信息,形成目标信息的关联背景数据,挖掘目标的背景信息,本文档来自技高网
...

【技术保护点】
一种基于云计算平台的大数据处理方法,其特征在于,包含以下实现过程:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息;依次类推,抽象出第一信息的N度关联信息,其中N≥1。

【技术特征摘要】
1.一种基于云计算平台的大数据处理方法,其特征在于,包含以下实现过程:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息;依次类推,抽象出第一信息的N度关联信息,其中N≥1。2.如权利要求1所述的方法,其特征在于,所述N度关联关系通过Hadoop下的MapReduce计算框架来计算。3.如权利要求1所述的方法,其特征在于,所述N度关联关...

【专利技术属性】
技术研发人员:范东来何宏靖
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1