基于云计算平台的海量关联数据分析及可视化实现方法技术

技术编号:13738230 阅读:54 留言:0更新日期:2016-09-22 09:56
本发明专利技术涉及信息处理技术领域,特别涉及基于云计算平台的海量关联数据分析及可视化实现方法,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出目标信息的关联信息,在此基础上,利用可视化工具绘制出以目标信息为0级节点的关联图谱。本发明专利技术的信息处理在云计算平台的大数据处理框架实现任务自动切分、并行计算,处理效率高。实现海量目标的关联关系可视化、图谱化,直观清晰、一目了然,为目标背景分析、市场推广、风险预测和防控等提供了可靠参考依据。

【技术实现步骤摘要】

本专利技术涉及本专利技术涉及互联网
,特别涉及基于云计算平台的海量关联数据分析及可视化实现方法
技术介绍
随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征:即数据量大、类型繁多、价值密度低、速度快时效高;作为其中最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而关联关系通过是隐
藏的,需要人们在复杂繁琐的数据中去挖掘和分析,要分析这些的隐含关联关系在海量的数据面前将变得更加困难,如果这些任务通过个人逐个实现,将耗费巨大的人力和时间成本;在特定的行业领域中这种数据分析更加频繁,如果可以通过一个平台来帮助相关从业人员自动分析出目标信息的相关背景,将极大减轻从业人员的工作负荷,提升行业的工作效率。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的不足,提供基于云计算平台的海量关联数据分析及可视化实现方法,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出目标信息的N度关联信息,在此基础上通过可视化处理工具,绘制出以目标信息为0级节点的关联关联图谱。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。具体的,所述专利技术方法包含以下实现步骤:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;(3)通过云计算平台下的分布式处理框架将所述第三信息抽象
成第一信息的二度关联信息;依次类推,抽象出以第一信息的N度关联信息,其中N≥1;(4)根据所述步骤(3)得出的关联关系数据,利用可视化工具将第一信息抽象成0级节点,将第二信息作为第一信息的1级子节点扩展到第一信息节点的外围,将第三信息作为第二信息的1级子节点扩展到第二信息节点的外围;依次类推,扩展出以第一信息节点为中心的各级节点依次扩展在对应上一级节点外围的关联图谱。作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Hadoop下的MapReduce计算框架来实现。作为一种优选,所述步骤(2)、步骤(3)中的N度关联关系通过Spark计算框架来实现。进一步的,所述步骤(3)中的二度关联关系通过Spark计算框架中的SQL语句来实现,具体的使用SQL中的join算法来实现。类似的,所述N度关联信息也通过join语句来实现。本专利技术中的数据记录存储于数据库中,所述数据记录的原始的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的
计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。进一步的,所述数据记录可以根据需要设置字段,从原始信息中提取出来,将提取出的数据信息的字段和内容作为键值对。进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说Hbase、CouchDB、Cassandra、Mongodb等。进一步的,所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS)。进一步的,所述关联关系数据或者关联图谱绘制的节点扩展遵循广度优先原则。进一步的,所述可视化过程中:将目标信息置于可视化图的中心;将相同级数的节点分散在一个圆周上,并围绕在上一级节点围成的圆的外面。进一步的,所述关联图谱中,使用不同的颜色和,或不同形状来区分各级节点。作为一种优选,所述步骤(4)中所采用的可视化工具为:yEd、D3或者jcharts。进一步的,所关联图谱通过Web端口提供给用户查询使用。与现有技术相比,本专利技术的有益效果:本专利技术基于云计算平台的
海量关联数据分析及可视化实现方法,云计算平台的大数据处理框架来实现海量关联数据的同时并行的处理,使用户只需按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,从海量的基础数据中,提取分析目标的相关关键信息,利用不同数据记录中相同的信息单元,将具有隐含联系的相关信息挖掘出来;在关联关系数据分析的基础上,本专利技术方法使用可视化工具实现关联关系数据的图谱化展示,达到目标信息的关联网络简洁明了、直观可见的效果,节省数据分析的时间。此外,本专利技术方法可以Web查询的方式,以在线或者离线绘制的方式将目标信息的关联图谱提供给用户查询使用,这将极大的减轻相关行业从业人员用于数据分析和整理的工作负荷,提高行业工作效率。附图说明:图1是本基于云计算平台的海量关联数据分析及可视化实现方法的实现流程示意图。图2是本基于云计算平台的海量关联数据分析及可视化实现方法的关联算法示意图。图3是实施例1中数据提取结果示意图。图4是实施例1中一度关联关系数据示意图。图5是实施例1中以a以起点的三级关联图谱示意图。图6是实施例1中以f以起点的三级关联图谱示意图。图7是实施例1中以k以起点的三级关联图谱示意图。图8是实施例1中以p以起点的三级关联图谱示意图。应该理解本专利技术附图均为示意性的,不代表具体的步骤和路径。具体实施方式下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。本专利技术的目的在于克服现有技术中所存在的不足,提供基于云计算平台的海量关联数据分析及可视化实现方法,如图1所示,通过设置字段等过滤条件,对原始数据(原始的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。)每篇文档中的关键信息单元进行提取,将提取出的关键信息单元按照设定的顺序排列成一条数据记录,通过云计平台的大数据处理框架,利用不同数据记录中相同的信息单元分析出海本文档来自技高网
...

【技术保护点】
基于云计算平台的海量关联数据分析及可视化实现方法,其特征在于,包含以下实现过程:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;(3)通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;依次类推,抽象出第一信息的N度关联信息,其中N≥1;(4)根据所述步骤(3)得出的关联关系数据,利用可视化工具将第一信息抽象成0级节点,将第二信息作为第一信息的1级子节点添加到第一信息节点的外围,将第三信息作为第二信息的1级子节点添加到第二信息节点的外围;依次类推,扩展出以第一信息节点为中心的各级节点依次添加在对应上一级节点外围的关联图谱。

【技术特征摘要】
1.基于云计算平台的海量关联数据分析及可视化实现方法,其特征在于,包含以下实现过程:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;(2)在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;(3)通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息;依次类推,抽象出第一信息的N度关联信息,其中N≥1;(4)根据所述步骤(3)得出的关联关系数据,利用可视化工具将第一信息抽象成0级节点,将第二信息作为第一信息的1级子节点添加到第一信息节点的外围,将第三信息作为第二信息的1级子节点添加到第二信息节点的外围;依次类推,扩展出以第一信息节点为中心的各级节点依次添加在对应上一级节点外围的关联图谱。2.如权利要求1所述的方法,其特征在于,所述N度关联关系通过Hadoop下的MapReduce...

【专利技术属性】
技术研发人员:何宏靖范东来
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1