当前位置: 首页 > 专利查询>中国南方电网有限责任公司超高压输电公司专利>正文

一种基于语义的海量数据处理方法技术

技术编号：9113447 阅读：134 留言：0更新日期：2013-09-05 02:37

本发明专利技术公开一种基于语义的海量数据处理方法，其包括以下步骤：A、将所述云应用中的所有的海量数据进行语义处理，形成智能分布式的语义索引机制；B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中；C、对存储于云存储系统中的云应用执行海量数据的MapReduce计算。本发明专利技术通过基于语义的海量数据存储方式，将会使得那些具有语义关联比较高的数据存储的比较紧密，当各种云应用需要执行对海量数据的MapReduce计算时，会在同一台机器上对同一个作业执行较多的Map或者Reduce任务，从而减少数据迁移的时间消耗，将会较好地提高海量数据的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义的海量数据处理方法
本专利技术涉及数据处理
，具体涉及一种基于语义的海量数据处理方法。
技术介绍
随着Web2.0技术的快速发展，互联网络经历了从信息（网页）与信息（网页）互连的WWW阶段、物与物互连的物联网时代、人与人互连的社会网络时代及其人与物与所有信息相融合的综合互连时代。人在互联网中产生的信息（BBS,评论，社交网络，微博等），尤其是机器（传感器及其各类处理器生成的分析数据等等）时时刻刻都在不断产生新的数据。根据国际数据公司IDC2011年发布的DigitalUniverseStudy，全球信息总量每过两年，就会增长一倍。仅在2011年，全球被创建和被复制的数据总量为1.8ZB(1.8万亿GB)。相较2010年同期上涨超过1ZB，到2020年这一数值将增长到35ZB。大数据已经成为当今信息处理最为关键的问题之一。随着互联网的飞速发展，云计算与物联网技术得到了飞速发展。海量数据,在国外一般又称为大数据（BigData）。IBM把海量数据概括成了三个V，即Volume（数据规模巨大）、Variety（数据类型及其来源广泛多样）和Velocity（快速化）。2011年2月11日美国出版的《科学》（Science）期刊专门出版了一期数据处理（DealingwithData）的专辑，其主题是围绕目前科学研究数据的海量增加展开讨论，说明海量数据对科学研究的重要性。随后的2011年9月4日，《自然》（Nature）也就海量数据处理设立了一个专门的专题，讨论分析了现代科学研究面临的一个巨大挑战就是如何处理已有的海量数据。云计算与物联网环境下海量数...
一种基于语义的海量数据处理方法

【技术保护点】
一种基于语义的海量数据处理方法，其特征在于，其包括以下步骤：A、对不同的云应用，分别将所述云应用中的所有的海量数据进行语义处理，形成智能分布式的语义索引机制；B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中，以使具有语义关联的数据存储紧密；C、对存储于云存储系统中的云应用执行海量数据的MapReduce计算。

【技术特征摘要】
1.一种基于语义的海量数据处理方法，其特征在于，其包括以下步骤：A、对不同的云应用，分别将所述云应用中的所有的海量数据进行语义处理，形成智能分布式的语义索引机制；B、对云应用中所有的元数据和数据按照所述语义索引机制进行语义存储到相应的云存储系统中，以使具有语义关联的数据存储紧密；所述步骤B包括以下步骤：B1、按照所述语义索引机制获得子云应用；B2、对所述子云应用的元数据分配到元数据服务器，其具体包括以下情况：B21、若子云应用的数量小于元数据服务器的数量，则每个子云应用的元数据均分配一个元数据服务器；B22、若子云应用的数量等于元数据服务器的数量，则每个子云应用的元数据均分配一个元数据服务器；B23、若子云应用的数量大于元数据服务器的数量，则按照以下步骤执行元数据库服务器的分配：B231、给每个元数据服务器均先分配一个子云应用的元数据；B232、剩余的子云应用的元数据继续按照一个子云应用的元数据对应分配给一个元数据服务器的方式进行分配，分配过程中，须使每个元数据服务器的元数据之和均衡；B233、重复步骤B232，直到将所有的子云应用的元数据分配完成；B3、将子云应用的数据分配到数据存储节点集群，其具体包括以下步骤：B31、计算每个子云应用的负载，并将所有的子云应用的负载求和获取负载和，根据所述数据存储节点集群的具体数量计算出每台数据存储节点的平均存储负载；B32、列出子云应用中所有负载位于平均存储负载阈值范围内的所有子云应用，并将这些满足条件的子云应用的数据分配到一台数据存储节点中；B33、计算子云应用的负载之和位于平均存储负载阈值范围内的所有子云应用，并将这些满足条件的子云应用的数据分配到一台数据存储节点中；B34、将子云应用的负载大于平均存储负载阈值的所有子云应用进行分割，分割后的负载尽量均位于平均存储负载阈值的范围内，并将分割后的子云应用所对应的所有...

【专利技术属性】
技术研发人员：王朝硕，赵建宁，张桂刚，田应富，李超，周震震，张勇，郭涑炜，邢春晓，
申请(专利权)人：中国南方电网有限责任公司超高压输电公司，清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人