大数据分析处理方法技术

技术编号:13732620 阅读:94 留言:0更新日期:2016-09-21 14:19
本发明专利技术涉及互联网信息处理技术领域,特别涉及大数据分析处理方法,通过设置字段等过滤条件,对原始数据中每篇文档中的关键信息单元进行提取,并形成相应的数据记录,并将各个数据记录存储存储于数据库中,在此基础上,根据不同数据记录中所包含的相同信息单元,应用云计算平台下的大数据处理框架抽象出信息单元之间的关联关系。本发明专利技术可以在海量互联网信息中,根据需要分析出海量目标信息背后隐含的关联信息和对应关联路径。本发明专利技术方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,目标背景分析,市场推广,市场细分,风险预测和风险防控等提供了有效技术支撑。

【技术实现步骤摘要】

本专利技术涉及本专利技术涉及互联网
,特别涉及大数据分析处理方法
技术介绍
随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征可以用4个“V”来描述,即数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快时效高(Velocity);作为其中最重要的特点:数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题,在海量的数据里面,如何精确的获得人们关心的信息,就如同海底捞针困难重重;与此同时面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,大数据中关联关系比因果关系更加重要,关联关系在很多领域有着重要的应用,比如目标背景分析,用户喜好分析等,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面,而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制
或者支持,会比简单目标的活动轨迹更加复杂。而在现实生活中,信息目标之间的关联关系非常复杂,而且一般是隐藏的,人们并不能通过表面活动或者表面信息察觉到,更加不易找出该目标是否和其他目标具有关联关系,或者是何种关联关系。在这样的情况下,这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。要分析这些的隐含关联关系在海量的数据面前将变得更加困难,如果这些任务通过个人逐个实现,将耗费巨大的人力和时间成本;急需一种分析实现方法,帮助分析者来实现这种巨大繁琐的计算过程,提供这种分析结果。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的不足,提供大数据分析处理方法,通过云计平台的大数据处理框架,利用不同数据记录中相同的信息单元分析出海量目标信息的关联信息关系,并且根据信息之间的关联途径抽象出对应的关联路径,使得关联信息之间的联系逻辑清晰明了;本专利技术方法系统可以在海量互联网信息中,根据需要设置分析目标,分析出海量目标信息的关联背景,并且通过关联路径的计算和展示使得相应的关联信息关系清晰简洁,为目标背景分析,市场推广,市场细分,风险预测和风险防控等提供了一种新型的有效途径。为实现上述目的,本专利技术提供大数据分析处理方法:根据不同数据记录中所包含相同的信息单元,应用云计算框架下的分布式处理模型抽象出信息单元之间的关联关系(关联关系包括各度关联信息和对
应关联路径)。具体的,所述专利技术方法包含以下实现步骤:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;(2)以所述第一信息为起点,通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息,并且抽象出所述第一信息经所述第二信息到所述第三信息的关联路径;在三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,通过云计算平台下的分布式处理框架将所述第四信息抽象成第一信息的三度关联信息,并且抽象出所述第一信息经所述第二信息到所述第三信息到第四信息的关联路径;依次类推,抽象出以第一信息为起点的N度关联信息以及对应的关联路径,其中N≥1。其中所述第一信息、第二信息以及第三信息是指信息的内容,不代表信息的顺序。通过本专利技术方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和对应的关联路径,通过关联路径可以很清晰的显示出分析目标与关联信息之间的具体关联途径,为相关问题追踪和定位提供直观明确的参考。可以看出随着关联度N的逐级增加,计算的复杂度和数据维度不断增加,这样复杂而庞大的计算过程通过云计算平台的大数据处理框架
(比如Hadoop下的MapReduce和Spark等大数据处理框架)来实现的,MapReduce和Spark可以同时对海量的目标并行的处理,也就是说,从基础数据到N度关联信息的计算,都是多个目标同时并列处理。MapReduce和Spark等大数据处理框架能够使用户只需要按照计算框架提供的接口根据需按照计算框架提供的接口设计上层指令,在不关心底层运行过程的情况下,处理框架根据上层指令自动调用内部的相关资源,并且将任务自动切分,分配到内部的不同节点进行处理,实现了数据的并行高效计算,在处理完成后还自动将处理结果整合后提供给用户;任务完成过程高度自动化,极大的节省了人力,提高了数据的处理效率。本专利技术利用云计算平台的大数据处理框架为海量目标的关联背景分析提供了快速可靠的处理途径。进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。进一步的,所述二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。进一步的,所述数据记录以及N度关联信息分别存储于不同的非关系型数据库中,比如说HBase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比,非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。进一步的,关联关系数据存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。进一步的,本专利技术中所形成的每条关联路径可以数据或者关系图谱的形式进行存储和显示。当用数据进行显示或者存储时,所述关联路径的展示顺序为:以目标信息为起点,关联信息按照关联度数依次增加的顺序进行排列,关联信息之间用连接符进行连接:例如A-B-C-E。当采用关系图谱进行关联路径显示或者存储时,每条关联路径的展示顺序为:以目标信息为起始节点,关联信息节点按照关联度数依次增加的顺序进行排列,关联信息节点之间用连接符依次进行连接。这种关联路径的显示方法,简洁明了路径清晰。作为一种优选,所述关联关系通过Hadoop下的MapReduce计算框架来实现。作为一种优选,所述度关联关系通过Spark计算框架来实现。使用类H本文档来自技高网
...

【技术保护点】
大数据分析处理方法,其特征在于,包含以下实现过程:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;(2)以所述第一信息为起点,通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息,并且抽象出所述第一信息经所述第二信息到所述第三信息的关联路径;依次类推,抽象出以第一信息为起点的N度关联信息以及对应的关联路径,其中N≥1。

【技术特征摘要】
1.大数据分析处理方法,其特征在于,包含以下实现过程:(1)在一条数据记录中包含第一信息和第二信息,其中第二信息为第一信息的一度关联信息;在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;(2)以所述第一信息为起点,通过云计算平台下的分布式处理框架将所述第三信息抽象成第一信息的二度关联信息,并且抽象出所述第一信息经所述第二信息到所述第三信息的关联路径;依次类推,抽象出以第一信息为起点的N度关联信息以及对应的关联路径,其中N≥1。2.如权利要求1所述的大数据分析处理方法,其特征在于,所述关联信息的抽象过程中,所述第一信息的第N度关联信息为第N-1度关联信息的一度关联信息。3.如权利要求2所述的大数据分析处理方法,其特征在于,所述步骤(1)中,所述N度关联信息按照关联度依次增加的顺序结构进行存储,并将属于不同关联度的信息单元打上对应的标记。4.如权利要求3所述的大数据分析处理方法,其特征在于,将N度关联数据分别存储于不同的数据库的分布...

【专利技术属性】
技术研发人员:范东来何宏靖
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1