一种私有云数据传输方法及数据管理平台技术

技术编号:32970055 阅读:50 留言:0更新日期:2022-04-09 11:34
本发明专利技术公开了一种私有云数据传输方法及数据管理平台,涉及大数据处理技术领域,所述方法主要包括:利用flume组件、sqoop组件和datax组件采集异构数据,并通过canal组件将所述异构数据统一传输到kafka组件中,同时将所述异构数据分别存储在hive组件和hbase组件中;利用MapReduce组件和Spark组件对存储在hive组件中的数据进行离线计算;利用phoenix组件为存储在hbase组件中的数据添加二级索引,并利用Spark组件和flink组件对数据进行实时计算;利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出。本方案中将离线数据统一存储在hive组件中,实时数据通过flink组件或Spark组件编写ETL后实时传输到hbase组件,且hbase组件使用phoenix组件作为客户端连接DBapi组件,实现了多源数据统一输出存储。多源数据统一输出存储。多源数据统一输出存储。

【技术实现步骤摘要】
一种私有云数据传输方法及数据管理平台


[0001]本专利技术涉及大数据处理
,尤其涉及一种私有云数据传输方法及数据管理平台。

技术介绍

[0002]政府对于运营“云”的有关法律、法规目前还不是很完善,集团性企业一般有明显的竞争对手和重要数据等需要保密的信息,如果用公有云,数据出了问题很难追究责任,同时“云”运营商计费标准不统一,流量计费千差万别,企业有时需要独立的专线,费用谁来承担尚无标准,目前具备给集团企业提供“云”服务的运营商,数量还不多而且相互之间严重隔离,一旦更换云服务商,数据迁移是个大问题(数据标准、企业数据量一般很大等等)。
[0003]传统私有云组件服务多需要的部署周期长,对外输出数据的数据服务层涉及到的数据结构复杂并且是多源数据库,需要的开发人员比较多,同时要求开发者技能丰富,因此,如何实现数据输出以满足各种离线计算、实时计算以及复杂的数据分析场景,就需要有一个多功能的数据服务层实现多源数据的统一,大型公司自研的数据湖功能的数据服务层结构复杂,涉及的技术繁多,部署比较耗费资源且开源的很少,要满足企业自身的需求二次开本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种私有云数据传输方法,其特征在于,包括以下步骤:利用flume组件、sqoop组件和datax组件采集异构数据,并通过canal组件将所述异构数据统一传输到kafka组件中;kafka组件接收所述异构数据,并按照数据类型将所述异构数据分别存储在hive组件和hbase组件中,所述数据类型包括离线数据和实时数据;利用MapReduce组件和Spark组件对存储在hive组件中的数据进行离线计算;利用phoenix组件为存储在hbase组件中的数据添加二级索引,并利用Spark组件和flink组件对数据进行实时计算;利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出。2.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:通过DBapi组件连接phoenix组件编写SQL语句以实现hbase组件中数据的实时输出。3.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:使用java springboot框架,封装jdbc驱动,解析json参数,拼接动态SQL,使用SQL语言开发,连接数据库并编写数据接口。4.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述利用DBapi组件为所述hive组件和所述hbase组件提供一致的访问接口,以实现数据的输出还包括:利用token验证,对访问所述hive组件或所述hbase组件的ip进行黑白名单检验。5.根据权利要求1所述的一种私有云数据传输方法,其特征在于,所述异构数据包括日志数据、关系型数据和埋点数据。6.一种私有云数据管理平台,实现权利要求1所述的一种私有云数据传输方法,其特征在于,...

【专利技术属性】
技术研发人员:刘波陈帅斌蒋泽飞王晨程
申请(专利权)人:杭州登虹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1