基于Hadoop的大数据治理装置制造方法及图纸

技术编号:20160381 阅读:32 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于Hadoop的大数据治理装置,包括:数据治理信息管理模块,用于维护各数据源的数据治理操作信息;数据源选择模块,用于对导入大数据平台的数据进行治理操作;数据预览模块,用于从结构化数据库的角度展示各数据表的基本信息;元数据管理模块,用于向用户多维度呈现数据表中的元数据信息;数据质量管理模块,用于查看数据表中各字段的具体缺失信息,并设置相应的填充规则以完成缺失信息的填充;多源数据融合模块,用于将多个数据源的多张数据表进行再次融合汇总,以得到新的数据表后,对新的数据表进行进一步分析。该装置利用大数据组件完成多个功能模块,为后续的分析和查询提供高可靠的数据基础。

【技术实现步骤摘要】
基于Hadoop的大数据治理装置
本专利技术涉及数据处理
,特别涉及一种基于Hadoop的大数据治理装置。
技术介绍
目前,随着大数据技术及相关应用的普及,数据已经成为除了人力、实物、财务、技术、知识产权和关系之外的另一种重要资产。通过对已有数据进行分析,企业可以更加了解近期的运营情况、用户使用情况等,以便更加精准地优化企业的运营。但是,目前条件下由于对企业数据的真实情况并不了解,分析人员需要花费大量时间学习业务数据库文档或者咨询业务人员,并且数据准备工作还需要专门的数据工程师做ETL,容易导致交付的速度跟不上,中间过程中还容易出现问题。随着信息装置建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数据资产形成的必要条件。有效的数据治理对于确保数据的准确、适度分享和保护至关重要。随着企业对数据治理环节的逐渐重视,已经出现了一些商用的数据治理装置,主要包含元数据管理、数据标准管理、数据质量管理等功能模块相关技术中,包括以下技术方案:(1)定义元数据;导入所述元数据;对所述元数据进行治理和分析,得到分析结果;至少根据所述分析结果得到元数据图谱。(2)首先提出独立于应用的标准数据资源集中、整合与功能化和平台化处理,形成一个全局性、分布式的数据标准化支持与质量控制中心;通过对各领域的元数据、元模型、元数据元素等的大集中与统一资源化处理,实现对各应用层数据资源的标准化、规范化与质量控制;数据标准化处理,主要针对数千件元数据标准、数据标准的对象类、定义类、特性类、表示类、值域类、应用与管理适配性进行,S1~Sn各应用领域的数据通过接口池与“标准数据源”中调出的规范数据进行标准化比对与适配性处理。(3)获取至少一个数据表,其中,所述至少一个数据表来自至少一个医院信息装置HIS(HospitalInformationSystem,医院信息装置);确定所述至少一个数据表中的每一个数据表中的数据的特征;所述特征用于指示所述数据的类别;根据存储的特征和数据结果的对应关系,确定所述每个数据表中的数据的结果;其中,所述对应关系是在当前时刻之前,根据各数据表中的数据的特征和与得到的数据结果通过机器学习确定的。然而,相关技术的大数据治理装置的关注重点基本在元数据的管理上,针对元数据的定义、使用和分析等方面统一标准,以达到对元数据信息的规范治理。但是,这些管理方案过于专业化,需要有相关专业知识的使用者才能理解。同时,针对大数据场景下的数据治理不仅限于元数据管理,还包括数据质量管理、多源数据融合、数据建模等环节,这些环节对后续的分析和挖掘操作同样重要。另外,目前的大数据治理装置都针对某一特定的使用场景,在使用、管理和扩展方面有一定的局限性。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种基于Hadoop的大数据治理装置,该装置有效提高了大数据治理的适用性和实用性,简单易实现。为达到上述目的,本专利技术一方面实施例提出了一种基于Hadoop的大数据治理装置,包括:数据治理信息管理模块,用于维护各数据源的数据治理操作信息,并且提供治理操作的复制功能;数据源选择模块,用于对导入大数据平台的数据进行治理操作,且支持结构化数据库的MySQL数据源类型和Hive数据源类型的治理操作;数据预览模块,用于从所述结构化数据库的角度展示各数据表的基本信息;元数据管理模块,用于向用户多维度呈现数据表中的元数据信息;数据质量管理模块,用于查看所述数据表中各字段的具体缺失信息,并设置相应的填充规则以完成所述缺失信息的填充;多源数据融合模块,用于将多个数据源的多张数据表进行再次融合汇总,以得到新的数据表后,对所述新的数据表进行进一步分析。本专利技术实施例的基于Hadoop的大数据治理装置,利用大数据组件完成数据预览、元数据管理、多源数据融合、数据质量等功能模块,从多个角度帮助用户理解数据真实含义,为后续的分析和查询提供高可靠的数据基础,同时,将复杂的操作隐藏在后面,对外提供可点击化的界面,使得不具备大数据专业技能的使用者也可以完成对数据的治理操作,充分体现了装置的实用性,从而有效提高了大数据治理的适用性和实用性,简单易实现。另外,根据本专利技术上述实施例的基于Hadoop的大数据治理装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述数据预览模块进一步用于通过表格形式和柱状图形式展示所述基本信息,其中,所述柱状图反映出所述各数据表拥有的记录数,而所述表格形式展示数据表详细的基本信息。进一步地,在本专利技术的一个实施例中,所述数据预览模块还用于提供基于当前数据源的变更历史信息和产出信息。进一步地,在本专利技术的一个实施例中,所述多源数据融合模块进一步用于将同一数据源的不同数据表之间按照任一主属性进行汇总融合;和/或将不同数据源的不同数据表之间按照任一主属性完成融合。进一步地,在本专利技术的一个实施例中,所述多源数据融合模块以数据质量管理模块处理后得到的数据为基础并通过SQL语句实现融合。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于Hadoop的大数据治理装置的结构示意图;图2为根据本专利技术一个具体实施例的基于Hadoop的大数据治理装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于Hadoop的大数据治理装置。图1是本专利技术一个实施例的基于Hadoop的大数据治理装置的结构示意图。如图1所示,该基于Hadoop的大数据治理装置10包括:数据治理信息管理模块100、数据源选择模块200、数据预览模块300、元数据管理模块400、数据质量管理模块500和多源数据融合模块600。其中,数据治理信息管理模块100用于维护各数据源的数据治理操作信息,并且提供治理操作的复制功能。数据源选择模块200用于对导入大数据平台的数据进行治理操作,且支持结构化数据库的MySQL数据源类型和Hive数据源类型的治理操作。数据预览模块300用于从结构化数据库的角度展示各数据表的基本信息。元数据管理模块400用于向用户多维度呈现数据表中的元数据信息。数据质量管理模块500用于查看数据表中各字段的具体缺失信息,并设置相应的填充规则以完成缺失信息的填充。多源数据融合模块600用于将多个数据源的多张数据表进行再次融合汇总,以得到新的数据表后,对新的数据表进行进一步分析。本专利技术实施例的装置10利用大数据组件完成多个功能模块,从多个角度帮助用户理解数据真实含义,为后续的分析和查询提供高可靠的数据基础。可以理解的是,如图2所示,本专利技术实施例的装置10包括数据治理信息管理模块100、数据源选择模块200、数据预览模块300、元数据管理模块400、数据质量管理模块500和多源数据融合模块600,其中,每个模块本文档来自技高网
...

【技术保护点】
1.一种基于Hadoop的大数据治理装置,其特征在于,包括:数据治理信息管理模块,用于维护各数据源的数据治理操作信息,并且提供治理操作的复制功能;数据源选择模块,用于对导入大数据平台的数据进行治理操作,且支持结构化数据库的MySQL数据源类型和Hive数据源类型的治理操作;数据预览模块,用于从所述结构化数据库的角度展示各数据表的基本信息;元数据管理模块,用于向用户多维度呈现数据表中的元数据信息;数据质量管理模块,用于查看所述数据表中各字段的具体缺失信息,并设置相应的填充规则以完成所述缺失信息的填充;以及多源数据融合模块,用于将多个数据源的多张数据表进行再次融合汇总,以得到新的数据表后,对所述新的数据表进行进一步分析。

【技术特征摘要】
1.一种基于Hadoop的大数据治理装置,其特征在于,包括:数据治理信息管理模块,用于维护各数据源的数据治理操作信息,并且提供治理操作的复制功能;数据源选择模块,用于对导入大数据平台的数据进行治理操作,且支持结构化数据库的MySQL数据源类型和Hive数据源类型的治理操作;数据预览模块,用于从所述结构化数据库的角度展示各数据表的基本信息;元数据管理模块,用于向用户多维度呈现数据表中的元数据信息;数据质量管理模块,用于查看所述数据表中各字段的具体缺失信息,并设置相应的填充规则以完成所述缺失信息的填充;以及多源数据融合模块,用于将多个数据源的多张数据表进行再次融合汇总,以得到新的数据表后,对所述新的数据表进行进一步分析。2.根据权利要求1所述的基于Hadoop的大数据治理装置...

【专利技术属性】
技术研发人员:鄂海红宋美娜白杨
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1