一种基于语义的海量数据处理方法技术

技术编号:9113447 阅读:134 留言:0更新日期:2013-09-05 02:37
本发明专利技术公开一种基于语义的海量数据处理方法,其包括以下步骤:A、将所述云应用中的所有的海量数据进行语义处理,形成智能分布式的语义索引机制;B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中;C、对存储于云存储系统中的云应用执行海量数据的MapReduce计算。本发明专利技术通过基于语义的海量数据存储方式,将会使得那些具有语义关联比较高的数据存储的比较紧密,当各种云应用需要执行对海量数据的MapReduce计算时,会在同一台机器上对同一个作业执行较多的Map或者Reduce任务,从而减少数据迁移的时间消耗,将会较好地提高海量数据的处理效率。

【技术实现步骤摘要】
一种基于语义的海量数据处理方法
本专利技术涉及数据处理
,具体涉及一种基于语义的海量数据处理方法。
技术介绍
随着Web2.0技术的快速发展,互联网络经历了从信息(网页)与信息(网页)互连的WWW阶段、物与物互连的物联网时代、人与人互连的社会网络时代及其人与物与所有信息相融合的综合互连时代。人在互联网中产生的信息(BBS,评论,社交网络,微博等),尤其是机器(传感器及其各类处理器生成的分析数据等等)时时刻刻都在不断产生新的数据。根据国际数据公司IDC2011年发布的DigitalUniverseStudy,全球信息总量每过两年,就会增长一倍。仅在2011年,全球被创建和被复制的数据总量为1.8ZB(1.8万亿GB)。相较2010年同期上涨超过1ZB,到2020年这一数值将增长到35ZB。大数据已经成为当今信息处理最为关键的问题之一。随着互联网的飞速发展,云计算与物联网技术得到了飞速发展。海量数据,在国外一般又称为大数据(BigData)。IBM把海量数据概括成了三个V,即Volume(数据规模巨大)、Variety(数据类型及其来源广泛多样)和Velocity(快速化)。2011年2月11日美国出版的《科学》(Science)期刊专门出版了一期数据处理(DealingwithData)的专辑,其主题是围绕目前科学研究数据的海量增加展开讨论,说明海量数据对科学研究的重要性。随后的2011年9月4日,《自然》(Nature)也就海量数据处理设立了一个专门的专题,讨论分析了现代科学研究面临的一个巨大挑战就是如何处理已有的海量数据。云计算与物联网环境下海量数据的处理是一个极为复杂的问题。如何让上亿条数据查询计划能够在几秒内完成,如何能够快速定位到用户所需的数据块的位置,这些均给数据的处理提出了巨大的挑战。由于云计算与物联网的飞速发展,越来越多的云应用需要处理和管理海量的数据。用户对于海量文件的查询处理速度的需求等越来越高,从而如何处理这些海量数据将成为其中重要的一个环节。为了实现较好地处理这些云应用的海量数据,需要研究一种基于语义的海量数据处理方法,为海量数据的处理计算提供较好的处理效率。
技术实现思路
为了克服现有技术在处理海量数据能力上的不足,本专利技术的目的在于提供一种基于语义的海量数据处理方法,可以提高云环境海量数据的处理效率,从而更好地服务于人类需求。为实现以上目的,本专利技术采取以下的技术方案:一种基于语义的海量数据处理方法,其包括以下步骤:A、对不同的云应用,分别将所述云应用中的所有的海量数据进行语义处理,形成智能分布式的语义索引机制;B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中,以使具有语义关联的数据存储紧密;C、对存储于云存储系统中的云应用执行海量数据的MapReduce计算。云应用,包括所有的云环境下的应用,如社交网络、电信应用、证券应用等等。所述步骤B包括以下步骤:B1、按照所述语义索引机制获得子云应用;B2、对所述子云应用的元数据分配到元数据服务器,其具体包括以下情况:B21、若子云应用的数量小于元数据服务器的数量,则每个子云应用的元数据均分配一个元数据服务器;B22、若子云应用的数量等于元数据服务器的数量,则每个子云应用的元数据均分配一个元数据服务器;B23、若子云应用的数量大于元数据服务器的数量,则按照以下步骤执行元数据库服务器的分配:B231、给每个元数据服务器均先分配一个子云应用的元数据;B232、剩余的子云应用的元数据继续按照一个子云应用的元数据对应分配给一个元数据服务器的方式进行分配,分配过程中,须使每个元数据服务器的元数据之和均衡;B233、重复步骤B232,直到将所有的子云应用的元数据分配完成;B3、将子云应用的数据分配到数据存储节点集群,其具体包括以下步骤:B31、计算每个子云应用的负载,并将所有的子云应用的负载求和获取负载和,根据所述数据存储节点集群的具体数量计算出每台数据存储节点的平均存储负载;B32、列出子云应用中所有负载位于平均存储负载阈值范围内的所有子云应用,并将这些满足条件的子云应用的数据分配到一台数据存储节点中;B33、计算子云应用的负载之和位于平均存储负载阈值范围内的所有子云应用,并将这些满足条件的子云应用的数据分配到一台数据存储节点中;B34、将子云应用的负载大于平均存储负载阈值的所有子云应用进行分割,分割后的负载尽量均位于平均存储负载阈值的范围内,并将分割后的子云应用所对应的所有数据分配至不同的数据存储节点;B35、重复步骤B31-B34,直到所有的子云应用的数据分配完成。所述平均存储负载阈值为[90%平均存储负载,110%平均存储负载]。所述子云应用为将一社区网络按照社会网络算法得到的子社区,其中,所述社区网络为各种基于社会网络的数据密集型应用的文件通过一个聚类或者社会网络算法得到的。所述社会网络算法为聚类算法。所述子云应用为将本体网络或标记网络进行分割,让有联系的元数据文件集中在一起,同时对该有联系的元数据文件进行相应的聚合而形成的相应的语义聚合对,其中,所述本体网络或标记网络为根据各种语义算法对各种来自分类的密集型应用的文件进行语义计算得到的。海量数据,包括所有的云环境下的应用所涉及到的各种海量数据,如社交网络的记录、电信应用的电话通信记录及其证券应用中的证券交易记录等等。同时,海量数据,既包括海量大文件也包括海量小文件,既包括海量结构化数据,也包括海量半结构化数据及其海量非结构化数据。所述云存储系统包括用来存储海量非结构化数据的云文件系统、以及用于存储海量结构化数据和海量半结构化数据的云数据库系统。所述云文件系统包括单一Master节点的云文件系统,以及大于一个Master节点的Master集群的云文件系统。所述云数据库系统包括单一Master节点的云数据库系统,以及大于一个Master节点的Master集群的云数据库系统。MapReduce,它是一种现有的处理海量数据的编程模型。只要能够实现较好的存储,则那些关系紧密的数据会存储在同一台机器上,会大大减少MapReduce的迁移时间,从而提高MapReduce的执行效率。本专利技术与现有技术相比,具有如下优点:本专利技术针对不同的云应用,分别将它们的所有海量数据进行一个语义处理,形成一种智能的分布式语义索引机制,同时云中的所有的元数据和数据将按照该语义索引机制进行语义存储到相应的云存储系统(如分布式文件系统或者云数据库系统)。按照这种基于语义的海量数据存储方法,将会使得那些具有语义关联比较高的数据存储的比较紧密,当各种云应用需要执行对海量数据的MapReduce计算时,会在同一台机器上对同一个作业执行较多的Map或者Reduce任务,从而减少数据迁移的时间消耗,将会较好地提高海量数据的处理效率。附图说明图1是本专利技术基于语义的海量数据处理方法的流程示意图;图2为本专利技术基于语义的海量数据处理方法的体系框架图;图3为本专利技术基于语义的智能存储机制框图;图4为本专利技术基于社会网络的数据密集型应用大小文件语义处理机制框图;图5为本专利技术基于分类的数据密集型应用的大小文件语义处理机制框图。具体实施方式下面结合附图和具体实施方式对本专利技术的内容做进一步详细说明。图2展本文档来自技高网
...
一种基于语义的海量数据处理方法

【技术保护点】
一种基于语义的海量数据处理方法,其特征在于,其包括以下步骤:A、对不同的云应用,分别将所述云应用中的所有的海量数据进行语义处理,形成智能分布式的语义索引机制;B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中,以使具有语义关联的数据存储紧密;C、对存储于云存储系统中的云应用执行海量数据的MapReduce计算。

【技术特征摘要】
1.一种基于语义的海量数据处理方法,其特征在于,其包括以下步骤:A、对不同的云应用,分别将所述云应用中的所有的海量数据进行语义处理,形成智能分布式的语义索引机制;B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中,以使具有语义关联的数据存储紧密;所述步骤B包括以下步骤:B1、按照所述语义索引机制获得子云应用;B2、对所述子云应用的元数据分配到元数据服务器,其具体包括以下情况:B21、若子云应用的数量小于元数据服务器的数量,则每个子云应用的元数据均分配一个元数据服务器;B22、若子云应用的数量等于元数据服务器的数量,则每个子云应用的元数据均分配一个元数据服务器;B23、若子云应用的数量大于元数据服务器的数量,则按照以下步骤执行元数据库服务器的分配:B231、给每个元数据服务器均先分配一个子云应用的元数据;B232、剩余的子云应用的元数据继续按照一个子云应用的元数据对应分配给一个元数据服务器的方式进行分配,分配过程中,须使每个元数据服务器的元数据之和均衡;B233、重复步骤B232,直到将所有的子云应用的元数据分配完成;B3、将子云应用的数据分配到数据存储节点集群,其具体包括以下步骤:B31、计算每个子云应用的负载,并将所有的子云应用的负载求和获取负载和,根据所述数据存储节点集群的具体数量计算出每台数据存储节点的平均存储负载;B32、列出子云应用中所有负载位于平均存储负载阈值范围内的所有子云应用,并将这些满足条件的子云应用的数据分配到一台数据存储节点中;B33、计算子云应用的负载之和位于平均存储负载阈值范围内的所有子云应用,并将这些满足条件的子云应用的数据分配到一台数据存储节点中;B34、将子云应用的负载大于平均存储负载阈值的所有子云应用进行分割,分割后的负载尽量均位于平均存储负载阈值的范围内,并将分割后的子云应用所对应的所有...

【专利技术属性】
技术研发人员:王朝硕赵建宁张桂刚田应富李超周震震张勇郭涑炜邢春晓
申请(专利权)人:中国南方电网有限责任公司超高压输电公司清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1