一种基于大数据的服务平台整合方法技术

技术编号:13743238 阅读:61 留言:0更新日期:2016-09-23 04:28
本发明专利技术公开了一种基于大数据的服务平台整合方法,包括以下步骤:(1)采集多源异构数据;(2)对所采集的多源异构数据进行整合,并将整合后的数据存入Hbase数据库;(3)利用Hive对整合后存入Hbase数据库的数据进行ETL处理,并存入Hbase数据库,对存储在Hbase数据库中的数据进行清洗得到干净的数据,并将干净数据存储在Hbase数据库中;(4)基于Hadoop技术对得到的干净数据进行建模分析,并将分析结果存储在Hive数据库中;(5)采用基于SOA的服务架构建立数据交换与共享服务总线,然后基于服务总线建立数据交换架构,通过数据交换架构将存储在Hive数据库中的分析结果推送至业务应用系统数据库中。本方法有效地减少了沟通成本和时间成本,提高了数据的有效利用率。

【技术实现步骤摘要】

本专利技术涉及大数据
,特别涉及一种基于大数据的服务平台整合方法
技术介绍
大数据是信息化产业下一代信息技术制高点,智慧城市建设已经在国内提上议事日程,智慧城市蕴含大量的数据,是服务于政务、企业和市民的新一代应用技术,但现有的智慧城市大数据整合技术尚不能在城市各个方面服务于政务和广大公众,这主要是由于以下几个方面的局限造成的:(1)大数据的复杂性的计算模型,目前只是对多源数据进行性质分析和规律探索,尚没有完整的应用方法体系;(2)结构化数据少,非结构化数据多,尚不具有较先进的技术或手段处理非结构化和半结构化数据;(3)探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模尚不完善;(4)目前的大数据挖掘基本处于一次挖掘粗糙知识的状态,未探寻出较完善的二次挖掘方法为决策层提供智慧知识引导决策。
技术实现思路
为了克服以上缺陷,本专利技术的目的是提供一种基于大数据的服务平台整合方法,该专利技术是对城市多源异构数据的采集、整合、存储、清洗、建模分析及应用的一种方法,通过这一方法将形成数据的由下而上的处理过程;和常规数据处理方式比较,整合的多数据源增加了数据的有效利用率,有效地减少了沟通成本和时间成本。为了达到以上目的,本专利技术提供了一种基于大数据的服务平台整合方法,包括以下步骤:步骤1:采集多源异构数据;步骤2:对所采集到的多源异构数据进行整合,并将整合后的数据存入Hbase数据库;步骤3:利用Hive对整合后存入Hbase数据库的数据进行ETL处理,并存入Hbase数据库,对存储在Hbase数据库中的数据进行清洗得到干净的数据,并将干净数据存储在Hbase数据库中;步骤4:基于Hadoop技术对存储在Hbase数据库中的干净数据进行建模分析,并将分析结果存储在Hive数据库中;步骤5:采用基于SOA的服务架构建立数据交换与共享服务总线,然后基于服务总线建立数据交换架构,通过数据交换架构将存储在Hive数据库中的分析结果推送至业务应用系统数据库中,以便将分析结果数据在相应业务系统中进行应用。优选地,所述步骤1中采集多源异构数据,其步骤具体如下:步骤1.1:配置多源异构数据源;步骤1.2:将多源异构数据源封装成数据构件;步骤1.3:将封装成的数据构件读取出来并将其转换成全局对象;步骤1.4:将转换成全局对象的数据构件组合,实现多源异构数据的统一访问构件平台;步骤1.5:通过构件平台采集多源异构数据并传输至数据中心,完成多源异构数据的采集;优选地,所述步骤3中对存储在Hbase数据库中的数据进行清洗得到干净的数据,其步骤具体如下:步骤3.1:对存储在Hbase数据库中的数据的进行查重处理;步骤3.2:对查重后的缺失数据进行插补数据处理;步骤3.3:对补缺后的数据进行聚类分析,分析出游离在聚类边缘的数据;依据不同数据类型设定有效范围,去除掉范围外的值,得到干净的数据,并存储在Hbase数据库中。优选地,所述步骤4中基于Hadoop技术对存储在Hbase数据库中的干净数据进行建模分析,包括:基于hadoop技术对存储在Hbase数据库中的干净数据进行聚类分析,聚类分析后的数据分别存储在Hive数据库中,以备后用,其具体过程如下:(1)创建一个初始化分,随机地从存储在Hbase数据库中的干净数据选择k个对象,将这些对象作为簇中心;(2)判断Hbase数据库中余下的干净数据与各个簇中心的距离;(3)将余下的干净数据依次赋给簇中心;(4)当有数据对象加入和离开簇的时候自动计算该簇的平均值,若不满足最小距离则对该数据进行重新分配簇;(5)循环重复上述步骤,直到簇中心数据不再变化,此时记录结果;(6)将结果存入Hive数据库。基于hadoop技术将存储在Hbase数据库中的干净数据进行协同推荐分析,协同推荐分析后的数据存储在Hive数据库中,以备后用,其具体过程如下:(1)获取存储在Hbase数据库中的干净数据,并将其转换为分析所需格式的数据集;(2)将数据集分为训练数据集和测试数据集;(3)用训练数据集来训练出推荐模型;(4)用测试集数据来评估推荐模型的精度;(5)当推荐模型的精度满足需求时,进行推荐,输出结果,否则重新进行训练得到模型,再评估一直到得到满足需求的数据为止;(6)将输出的结果存入Hive数据库;基于hadoop技术将存储在Hbase数据库中的干净数据进行分类分析,将分类分析后的数据存储在Hive数据库中,并为不同数据打上不同标签,以备后用,其具体过程如下:(1)获取存储在Hbase数据库中的干净数据,并将其转换为分析所需格式的数据集;(2)为数据集赋予特征属性,依据特征属性将数据集进行适当划分成多个待分类项,对一部分分类项进行分类,形成训练样本集合;(3)根据我们最终要得到的数据分类计算训练样本集合中每个类别出现的频率及每个特征属性对每个类别的概率估计,得到分类器;(4)使用分类器对需要分类的数据进行分类,输出结果;(5)将结果保存在Hive数据库中。优选地,所述步骤3.1中对存储在Hbase数据库中的数据的进行查重处理,其具体步骤如下:步骤3.1.1:对存储在Hbase数据库中的数据进行重复查询,筛选出所有字段完全重复的数据;保留一笔数据,去掉完全重复的其他数据;步骤3.1.2:以关键字段进行数据重复查询;筛选出关键字段重复的数据;比较重复数据的完整性,保留字段数据较完整的一笔,去掉其余重复数据。优选地,所述步骤3.2中对查重后的缺失数据进行插补数据处理,其具体步骤如下:步骤3.2.1:对于有规律缺失数据且不重要数据,则删除缺失;对于有规律缺失数据且较重要数据,利用完整数据计算数据权重来进行增补;对于无规律缺失数据依据缺失数据类型进行分别处理;步骤3.2.2:对于同属性数据采用已存在数据均值和该属性值出现概率最高的值进行填补;对于不同属性随机缺失数据利用数据首先为每个缺失值产生可能的插补值,根据可能的插补值形成的完整数据进行统计分析,对分析结果进行评定,形成最终的插补值对缺失值进行插补。优选地,所述步骤1.2中将多源异构数据源封装成数据构件,其具体步骤为:步骤1.2.1:利用数据库表结构准备构件对象;步骤1.2.2:通过数据库查询出数据库中的表列表;步骤1.2.3:以表列表中的数据表为对象查询出每个表的数据库字段及字段数据结构;步骤1.2.4:以数据表为对象将表结构读取出来,将数据字段属性设置为表对象的基本属性信息;步骤1.2.5:将对象表封装成一个可通过属性字段查询的构件;与现有技术相比,本专利技术的有益效果:本专利技术是对城市多源异构数据的采集、整合、存储、清洗、建模分析及应用的一种方法,通过这一方法将形成数据的由下而上的处理过程;并且对形成数据的来源和处理过程做到有迹可查,有章可尊;和常规数据处理方式比较,整合的多数据源增加了数据的有效利用率,有效地减少了沟通成本和时间成本。附图说明图1为本专利技术流程图;图2为基于Sqoop的ETL模块。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。如图1和图2所示,本专利技术提供了一种基于大数据的服务平台整合方法,包括以下步骤:步骤1:采集多源异构数据,其具体采集过程包括以下步骤:步骤1.1:配置多源异构数据源,在采集本文档来自技高网...

【技术保护点】
一种基于大数据的服务平台整合方法,其特征在于,包括以下步骤:步骤1:采集多源异构数据;步骤2:对所采集到的多源异构数据进行整合,并将整合后的数据存入Hbase数据库;步骤3:利用Hive对整合后存入Hbase数据库的数据进行ETL处理,并存入Hbase数据库,对存储在Hbase数据库中的数据进行清洗得到干净数据,并将干净数据存储在Hbase数据库中;步骤4:基于Hadoop技术对存储在Hbase数据库中的干净数据进行建模分析,并将分析结果存储在Hive数据库中;步骤5:采用基于SOA的服务架构建立数据交换与共享服务总线,然后基于服务总线建立数据交换架构,通过数据交换架构将存储在Hive数据库中的分析结果推送至业务应用系统数据库中,以便在相应业务系统中进行应用。

【技术特征摘要】
1.一种基于大数据的服务平台整合方法,其特征在于,包括以下步骤:步骤1:采集多源异构数据;步骤2:对所采集到的多源异构数据进行整合,并将整合后的数据存入Hbase数据库;步骤3:利用Hive对整合后存入Hbase数据库的数据进行ETL处理,并存入Hbase数据库,对存储在Hbase数据库中的数据进行清洗得到干净数据,并将干净数据存储在Hbase数据库中;步骤4:基于Hadoop技术对存储在Hbase数据库中的干净数据进行建模分析,并将分析结果存储在Hive数据库中;步骤5:采用基于SOA的服务架构建立数据交换与共享服务总线,然后基于服务总线建立数据交换架构,通过数据交换架构将存储在Hive数据库中的分析结果推送至业务应用系统数据库中,以便在相应业务系统中进行应用。2.根据权利要求1所述的一种基于大数据的服务平台整合方法,其特征在于,所述步骤1中采集多源异构数据,其步骤具体如下:步骤1.1:配置多源异构数据源;步骤1.2:将多源异构数据源封装成数据构件;步骤1.3:将封装成的数据构件读取出来并将其转换成全局对象;步骤1.4:将转换成全局对象的数据构件组合,实现多源异构数据的统一访问构件平台;步骤1.5:通过构件平台采集多源异构数据并传输至数据中心,完成多源异构数据的采集。3.根据权利要求1所述的一种基于大数据的服务平台整合方法,其特征在于,所述步骤3中对存储在Hbase数据库中的数据进行清洗得到干净数据,其步骤具体如下:步骤3.1:对存储在Hbase数据库中的数据的进行查重处理;步骤3.2:对查重后的缺失数据进行插补数据处理;步骤3.3:对补缺后的数据进行聚类分析,分析出游离在聚类边缘的数据;依据不同数据类型设定有效范围,去除掉范围外的值,得到干净数据,并存储在Hbase数据库中。4.根据权利要求1所述的一种基于大数据的服务平台整合方法,其特征在于,所述步骤4中基于Hadoop技术对存储在Hbase数据库中的干净数据进行建模分析,包括:基于hadoop技术对存储在Hbase数据库中的干净数据进行聚类分析,聚类分析后的数据分别存储在Hive数据库中,以备后用,其具体过程如下:(1)创建一个初始化分,随机地从存储在Hbase数据库中的干净数据选择k个对象,将这些对象作为簇中心;(2)判断Hbase数据库中余下的干净数据与各个簇中心的距离;(3)将余下的干净数据依次赋给簇中心;(4)当有数据对象加入和离开簇的时候自动计算该簇的平均值,若不满足最小距离则对该数据进行重新分配簇;(5)循环重复上述步骤,直到簇中心数据不再变化,此时记录结果;(6)将结果存入Hive数据库;基于hadoop技术将存储在Hbase数据库中的干净数据进行协同推荐分析,协同推荐分析后的数据存储在Hive数据库中,以备后用,其具体过程如下:...

【专利技术属性】
技术研发人员:向富强曾逸杨雪琴
申请(专利权)人:四川中软科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1