一种基于Hive的资产管理数据安全保护仓库系统技术方案

技术编号:38828463 阅读:14 留言:0更新日期:2023-09-15 20:07
本发明专利技术公开了一种基于Hive的资产管理数据安全保护仓库系统。本发明专利技术中,数据处理模块内部的模块将用户所需的数据从数据源抽取之后,对杂乱无章的数据进行清洗,和转换,让它们变成可以被企业所利用的有价值数据并加载到我们事先已经定义好的数据仓库模型中去,为之后的数据挖掘和数据分析工作做支持,从而提高了后续数据处理过程中的便利性与快捷性;数据管理模块内部的元数据管理模块通过元数据评审功能对发生变更操作的元数据进行评审,判断数据是否存在重复开发和数据模型设计是否合理,从而对这些标准进行统一管理和维护,来促进数据仓库的数据标准化,保障数据分析应用的准确性和一致性,提高了整体系统的安全性和便捷性。捷性。捷性。

【技术实现步骤摘要】
一种基于Hive的资产管理数据安全保护仓库系统


[0001]本专利技术属于资产管理数据
,具体为一种基于Hive的资产管理数据安全保护仓库系统。

技术介绍

[0002]近年来伴随着我国经济和科技的迅速发展,各行各业行业的发展环境与过去相比发生了巨大的变化,为了提高企业的经济效益和市场竞争力,国内的各大保险企业都在加快信息化建设的步伐,逐渐建立了资产管理数据服务系统、代理人管理系统和客户管理系统等一系列辅助保险业务开展的信息管理系统,并通过这些信息管理系统积累了大量的业务历史数据。目前,企业的信息化建设已经进入到深水区,而且市场竞争也变得越发的激烈。在这个大数据时代,数据的重要性已经不言而喻,通过数据安全保护仓库系统来对资产数据进行管理。
[0003]但是常见的系统不能对数据是否存在重复开发和数据模型设计是否合理进行判断,从而使得使用时较为不便。

技术实现思路

[0004]本专利技术的目的在于:为了解决上述提出的问题,提供一种基于Hive的资产管理数据安全保护仓库系统。
[0005]本专利技术采用的技术方案如下:一种基于Hive的资产管理数据安全保护仓库系统,包括电源供电模块、数据源模块、数据处理模块、数据传输模块、数据仓库模块、数据管理模块、开发环境构建模块、数据采集模块、数据转换装载模块、元数据管理模块和数据质量管理模块,所述电源供电模块的输出端连接有所述数据源模块的输入端,所述数据源模块的输出端连接有所述数据处理模块的输入端,所述数据处理模块的输出端连接有所述数据传输模块的输入端,所述数据传输模块的输出端连接有所述数据仓库模块的输入端,所述数据仓库模块的输出端连接有所述数据管理模块的输入端。
[0006]在一优选的实施方式中,所述数据处理模块的内部设置有开发环境构建模块、数据采集模块和数据转换装载模块,所述开发环境构建模块、数据采集模块、数据转换装载模块的整体输出端连接有所述数据处理模块的输入端;
[0007]所述数据管理模块的内部设置有元数据管理模块和数据质量管理模块,所述元数据管理模块和数据质量管理模块的整体输出端连接有所述数据管理模块的输入端。
[0008]在一优选的实施方式中,所述数据源模块使用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输工作,该层主要应用Sqoop脚本在特定的时间将线上Oracle中的数据传输到分布式文件系统HDFS中,使用Flume将服务器日志产生的日志数据传输到HDFS中;这两部分共同构成了数据仓库的源数据层。
[0009]在一优选的实施方式中,所述开发环境构建模块使用Hive来进行数据的处理和开发工作,利用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输和采集工作;
所述开发环境构建模块的步骤包括:(1)Hadoop集群搭建;首先,该Hadoop集群是在虚拟机VirtualBox中,通过CDH下载Cloudera

VM镜像,使用VirtualBox启动虚拟机,最后测试和使用;(2)Hive环境部署:删除Hive自带的Mysql数据库是Hive环境部署的第一步,在卸载完成之后我们安装新版本的Mysql作为Hive数据仓库的元数据库,第三步安装Hive的同时我们需要配置相关文件,第四步对Hive是否成功安装进行验证;(3)Sqoop环境部署第一、二步是解压Sqoop安装包并配置好环境变量,第三步是使用Sqoop命令测试连接远程数据源,第四步测试从远程数据源导入数据至Hive是否成功。
[0010]在一优选的实施方式中,所述数据采集模块对业务数据采集和日志数据采集,业务数据采集模块采用Sqoop来采集业务数据;首先Sqoop与业务数据库创建联系,获取业务数据表的Schema,然后通过Import导入功能直接从业务数据库Mysql中抽取数据并传输到Hive数据仓库ODS表中。
[0011]在一优选的实施方式中,所述数据转换装载模块首先是把ODS层数据装载到DIM层和DWD层中,然后再把DIM层数据和DWD层数据装载到DWS层中,数据转换主要包括统一数据编码、清除重复数据、空值填充、统一日期格式和异常值处理;统一数据编码是指不同业务系统中同样的数据采用不同的编码,在数据仓库中需要进行统一编码处理,例如性别属性,有些系统采用的是M和F,有些系统采用的是1和0,有些系统采用的是男和女,在数据仓库中统一转换为M和F;清除重复数据是指在业务数据重复录入或者重复采集一些特殊情况下会出现数据重复的问题,数据重复会影响数据统计分析的准确性,所以需要识别并清除重复的数据;空值填充是指在业务系统数据表发生调整或者业务数据缺失情况下有的列中会存在空值,对于存在数据缺失的列,字符类型列中的空值通过设置为

unknown

来进行标识,数值类型列的空值设置为
‘‑1’

[0012]在一优选的实施方式中,所述数据传输模块利用Apache的Sqoop工具,结合Linux平台下的Shell编程以及crontab命令来定时执行脚本,使数据的ETL自动化,所述数据传输模块在使用Sqoop的import命令导入数据之前,需要先确定Sqoop调用的SQL语句,根据上一章提出的数据模型设计,采用将维度表和事实表作join操作的方法去编写SQL,具体的SQL语句比较长,这里不再贴出来,以下用CONCRETE_SQL来代替代码中出现的SQL语句。。
[0013]在一优选的实施方式中,所述数据仓库模块的整体架构主要包括Client、Driver、Matestore、Hadoop四个部分;Client是Hive提供的用户接口,主要包括CLI、WebUI、JDBC、ODBC方式,CLI是Hive提供的命令行接口,WebUI是Hive提供的浏览器访问界面,JDBC和OBDC是Hive通过Java实现的类似数据库的JDBC功能。
[0014]在一优选的实施方式中,所述元数据管理模块包括元数据目录和元数据评审;数据开发人员通过元数据目录功能以图形界面的方式对元数据进行展示、搜索、新增、修改和删除操作,并对发生变更的元数据提交评审;数据管理员通过元数据评审功能对发生变更操作的元数据进行评审,判断数据是否存在重复开发和数据模型设计是否合理,只有评审通过后才元数据才会对数据仓库执行更。
[0015]在一优选的实施方式中,所述数据质量管理模块包括数据质量检查任务配置和质量检查记录两个功能;在数据质量检查任务配置功能中,系统首先会调用getRuleTaskAll()方法把所有的质量检查任务以清单的形式进行展示,当用户点击新增任务后,系统会以卡片的形式对空值检查、枚举检查、重复性检查、值域检查、正则检查、码值检查、时效性检
查和自定义SQL检查八个数据检查规则进行展示,为方便用户理解规则的应用。
[0016]综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
[0017]1、本专利技术中,数据处理模块内部的模块将用户所需的数据从数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Hive的资产管理数据安全保护仓库系统,包括电源供电模块(1)、数据源模块(2)、数据处理模块(3)、数据传输模块(4)、数据仓库模块(5)、数据管理模块(6)、开发环境构建模块(7)、数据采集模块(8)、数据转换装载模块(9)、元数据管理模块(10)和数据质量管理模块(11),其特征在于:所述电源供电模块(1)的输出端连接有所述数据源模块(2)的输入端,所述数据源模块(2)的输出端连接有所述数据处理模块(3)的输入端,所述数据处理模块(3)的输出端连接有所述数据传输模块(4)的输入端,所述数据传输模块(4)的输出端连接有所述数据仓库模块(5)的输入端,所述数据仓库模块(5)的输出端连接有所述数据管理模块(6)的输入端。2.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库系统,其特征在于:所述数据处理模块(3)的内部设置有开发环境构建模块(7)、数据采集模块(8)和数据转换装载模块(9),所述开发环境构建模块(7)、数据采集模块(8)、数据转换装载模块(9)的整体输出端连接有所述数据处理模块(3)的输入端;所述数据管理模块(6)的内部设置有元数据管理模块(10)和数据质量管理模块(11),所述元数据管理模块(10)和数据质量管理模块(11)的整体输出端连接有所述数据管理模块(6)的输入端。3.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库系统,其特征在于:所述数据源模块(2)使用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输工作,该层主要应用Sqoop脚本在特定的时间将线上Oracle中的数据传输到分布式文件系统HDFS中,使用Flume将服务器日志产生的日志数据传输到HDFS中;这两部分共同构成了数据仓库的源数据层。4.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库系统,其特征在于:所述开发环境构建模块(7)使用Hive来进行数据的处理和开发工作,利用Hadoop生态圈的数据传输工具Sqoop和Flume来进行数据的传输和采集工作;所述开发环境构建模块(7)的步骤包括:(1)Hadoop集群搭建;首先,该Hadoop集群是在虚拟机VirtualBox中,通过CDH下载Cloudera

VM镜像,使用VirtualBox启动虚拟机,最后测试和使用。5.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库系统,其特征在于:所述数据采集模块(8)对业务数据采集和日志数据采集,业务数据采集模块采用Sqoop来采集业务数据;首先Sqoop与业务数据库创建联系,获取业务数据表的Schema,然后通过Import导入功能直接从业务数据库Mysql中抽取数据并传输到Hive数据仓库ODS表中。6.如权利要求1所述的一种基于Hive的资产管理数据安全保护仓库系统,其特征在于:所述数据转换装载模块(9)首先是把ODS层数据装载到DIM层和DWD层中,然后再把DIM层数据和DWD层数据装载到DWS层中,数据转换主要包括统一数据编码、清除重复数据、空值填充、统一日期格式和异常值处理;统一数据编码是指不同业务系统中同样的数据采用不同的编码,在数据仓库中需要进行统一编码处理,例如性别属性,有些系统采用的是M和F,有些系统采用的是1和0,有些系统采用的是男和女,在数据仓库中统一转换为M和F;清除重复数据是指在业务数据重...

【专利技术属性】
技术研发人员:刘晓琳
申请(专利权)人:深圳华夏凯词财富管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1