一种海量数据处理方法技术

技术编号:13674607 阅读:79 留言:0更新日期:2016-09-07 23:57
本发明专利技术涉及互联网信息处理技术领域,特别涉及一种海量数据处理方法,通过设置字段等过滤条件,对原始数据中每篇文档中的关键信息单元进行提取,并形成相应的数据记录,并将各个数据记录存储于数据库中,在此基础上,根据不同数据记录中所包含的相同信息单元,扩展出信息单元之间的关联关系。本发明专利技术可以在海量互联网信息中,根据需要分析出海量目标信息背后隐含的关联信息径。本发明专利技术方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径,目标背景分析,市场推广,市场细分,风险预测和防控等提供了有效技术支撑。

【技术实现步骤摘要】

本专利技术涉及本专利技术涉及互联网
,特别涉及一种海量数据处理方法
技术介绍
随着社会的发展和科技的进步,个体或者团体之间的联系变得更加紧密,紧密的联系促进了信息的快速传播和增长,而当今世界早就进入了信息时代,随着信息的爆发式增长和积累,大数据时代已近来临,大数据的基本特征:数据量大、类型繁多、价值密度低、速度快时效高;对于大数据来说,关联关系比因果关系更加重要,这是大数据时代的论断,面对海量的信息,如何去分析某类信息之间的相关性,并以此分析出信息背后隐含价值,才在更高、更深的层面体现数据信息的价值,但是面对如此海量的数据,想要快速准确的分析出数据之间的关联关系,十分困难。针对特定的信息目标,如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义,因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面;而且具有关联关系的目标在对外建立各种活动时,受到内部的关联关系的相互牵制或者支持,会比简单目标的活动轨迹更加复杂。而在现实生活中,原始的信息数量规模庞大,关键信息的分布零散,信息的价值密度低,信息目标之间的关联关系非常复杂,而且一般是隐藏的,人们并不能
通过表面活动或者表面信息察觉到,更加不易找出该目标是否和其他目标具有关联关系。在这样的情况下,这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的不足,提供一种海量数据处理方法,在数据库的基础数据中根据需要设置字段,将不同信息文档中的对应信息提取出来,形成相应的数据记录;然后利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联关系;本专利技术方法系统可以在海量互联网信息中,根据需要设置分析目标,进而分析出与目标具有隐含联系的关联信息。通过这样的数据分析处理,为目标背景分析,市场推广,市场细分,风险预测和防控等提供了一种新型的有效途径。为实现上述目的,本专利技术提供一种海量数据处理方法:根据不同数据记录中所包含相同的信息单元,扩展出目标信息的N度关联信息。具体的,所述专利技术方法包含以下实现步骤:(1)从原始数据中的每条基础数据中,根据设置的字段提取信息,形成相应的数据记录;(2)在一条数据记录中包括第一信息和第二信息,其中第二信息是第一信息的一度关联信息,在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;将所述第三信息
扩展成第一信息的二度关联信息;(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,将所述第四信息扩展成第一信息的三度关联信息;依次类推,扩展出以第一信息为起点的N度关联信息,其中N≥1。其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容,不代表信息的顺序。通过本专利技术方法可以目标信息为起点(起点的选择根据分析需要来设置),逐级查找出与目标相关联的其他信息和关联度数。本专利技术中的原始数据存储于数据库中(通常为非关系型数据库),所述原始数据的来源可以是从互联中根据需要爬取的数据,互联中包含广泛丰富的信息来源,从互联网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理,和深度应用提供一种全新的途径。本专利技术根据分析需要来设置字段,从原始数据中提取对应信息,形成对应的数据记录,并在数据记录的基础上进行相应的关联关系分析,通过字段过滤从繁琐无规律的原始数据中精准地提取出用户关心的关键信息,提高了信息处理的效率和准确率;并且本专利技术在这些关键信息的基础上根据需要设定目标信息,以目标信息为起点进行关联信息分析,逐级的分析出与目标信息具有关联关系的信息。通过这样的数据分析处理,为目标背景分析,市场推广,市场细分,
风险预测和防控等提供信息支持。进一步的,所述N度关联关系中的计算过程,均以一度关联关系为基础,即是上述关联信息的追踪(计算)过程中,第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算,计算逻辑清晰,运行过程简单,保证了运算结果的准确率。进一步的,所述步骤(1)中提取出来的数据信息可以先通过清洗进行数据预处理。进一步的,将所述步骤(1)中提取出的数据信息的字段和内容作为键值对:其中字段作为“键”,而字段对应的内容为“值”;根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息),而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息,从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。进一步的,所述步骤(3)中形成的二度关联信息按照:一度关联数据、二度关联数据的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记,一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同;通过相应的标记,可以很方便的将属于不同关联度的信息区别开来,方便关联信息逐级计算时的数据提取和区分。进一步的,所述N度关联信息,按照关联度依次增加的顺序结构进行存储;并将属于不同关联度的信息单元打上对应的标记。作为一种优选,所述数据记录以及N度关联信息以设定色格式
进行存储,比如:数据表,以数据表形式存储的数据,存储结构规范,便于查询和进一步计算。进一步的,所述数据记录以及N度关联信息存储于非关系型数据库中,比如说HBase、Cassandra、CouchDB、Mongodb等。;本专利技术中涉及的数据格式的结构化程度不高,多为半结构或者无结构的数据,更加适合存储于非关系型数据库中。同时与传统的关系型数据库相比,非关系型数据库具有操作简单、源码公开、随时下载、应用成本低等特点;并且在面对体量急剧增加的多维度无结构数据时,比如说3D数据、音频数据、视频数据,传统的非关系型数据库的存储已经不能满足需求。进一步的,所述N度关联信息存储于于非关系型数据库的分布式文件系统中(比如HDFS),HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,并且为采用Hadoop的其他处理方式提供了便利。进一步的,在所述方法的基础上提供一种目标背景信息分析方法,上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析,用户根据需要设置分析字段从相关的网页中提取数据,形成相应的数据记录在形成数据记录的基础上,采用本专利技术方法,逐级搜索和扩展出目标信息的N度关联方信息,形成目标信息的关联背景数据,挖掘目标的背景信息,为相关商业投资,风险防控提供可
靠参考。与现有技术相比,本专利技术的有益效果:本专利技术一种海量数据处理方法,从海量的基础数据中,根据需要设置字段,精准地提取出需要进行分析的关键信息;在此基础上利用不同数据记录中相同的信息单元,将具有隐含联系的相关信息逐级挖掘出来,根据关联的度数将信息之间的关联远近程度进行量化,为相关问题追踪和背景查找提供了一种快速可靠的通道。本专利技术方法为海量数据信息的深度挖掘和应用提供了一种全新的处理分析方式,为目标信息背景分析,市场推广,市场细分,风险预测和风险防控等提供了有效技术支撑。本文档来自技高网
...

【技术保护点】
一种海量数据处理方法,其特征在于,包含以下实现过程:(1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;(2)在一条数据记录中包括第一信息和第二信息,其中第二信息是第一信息的一度关联信息,在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;将所述第三信息扩展成第一信息的二度关联信息;(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,将所述第四信息扩展成第一信息的三度关联信息;依次类推,扩展出以第一信息为起点的N度关联信息,其中N≥1。

【技术特征摘要】
1.一种海量数据处理方法,其特征在于,包含以下实现过程:(1)从原始数据中的每条基础数据中,根据设置的字段提取出对应的信息,形成相应的数据记录;(2)在一条数据记录中包括第一信息和第二信息,其中第二信息是第一信息的一度关联信息,在第二数据记录中包括第二信息和第三信息,其中第三信息是第二信息的一度关联信息;将所述第三信息扩展成第一信息的二度关联信息;(3)在第三数据记录中包含第四信息和第三信息,其中所述第四信息为第三信息的一度关联信息,将所述第四信息扩展成第一信息的三度关联信息;依次类推,扩展出以第一信息为起点的N度关联信息,其中N≥1。2.如权利要求1所述的一种海量数据处理方法,其特征在于,所述步骤(1)包含对提取出的数据进行清洗的预处理过程。3.如权利要求2所述的一种海量数据处理方法,其特征在于,所述数据清洗的方法包括:字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加...

【专利技术属性】
技术研发人员:范东来何宏靖
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1