一种基于数据仓库的异构大数据整合方法和系统技术方案

技术编号:9865973 阅读:203 留言:0更新日期:2014-04-03 01:37
本发明专利技术提出了一种基于数据仓库的异构大数据整合方法和系统,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。本发明专利技术对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联,通过Map/Reduce分布式处理和数据挖掘处理,把处理结果和相关数据以数据库结构的方式写入内存,形成简易内存数据库,便于高速计算和快速响应。

【技术实现步骤摘要】
一种基于数据仓库的异构大数据整合方法和系统
本专利技术主要涉及互联网领域,尤其涉及一种基于数据仓库的异构大数据整合方法和系统。
技术介绍
商业智能(BI, Business Intelligence)综合利用数据仓库、ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储,并对数据进行分析,提取出其中蕴藏的知识,从而帮助企业进行决策分析,在企业中得到了越来越广泛的应用。随着互联网的快速发展,使互联网的应用越来越丰富,这些应用让互联网留存了海量的数据信息,包括用户的浏览记录,交易记录、日志文件、网络页面信息以及超链接。如何在海量的、动态的互联网信息数据中获取有用的知识,是商业智能的价值所在。但是传统的商业智能架构移植到互联网应用领域会产生严重的“水土不服”现象,因为如下几种情况限制了传统的商业智能架构的作用:?互联网应用中数据源多种多样,包含各种关系型数据库保存的数据,社交网络产生的数据,网络日志数据、图片文件、文本文件等。但传统的商业智能都是以处理各种关系型数据库中的数据见长。籲互联网数据量巨大。目前各类网站,特别是运营时间比较长的电子商务网站,都会产生了巨大的网络日志,而且在数据库中也存储了大量的各类数据,包括产品数据、商情数据、询盘数据等,另外,还有大量的各类数据文件保存在服务器中,在处理这么大规模的数据都出现了很多新的问题,而传统的关系型数据库目前已经无法满足处理如此大规模数据的要求。?电子商务对于数据分析的实时性要求极高,有很大部分的数据只在短时间内才能体现数据的价值,处理数据速度的快慢就显得尤为重要。?用户量巨大,互联网特别是电子商务的BI应用很大一部分是面向网站的用户群体的,这个群体数目巨大。传统的BI展现工具设计的时候是为了企业的中高层用户设计,移植到互联网应用中,无论从用户体验,交互效率都存在巨大差距。以上四个问题就是传统的BI解决方案在互联网领域屡屡失败的根本原因。目前针对大数据的处理方法,已经有一些研究和应用成果。专利“一种分布式数据流处理方法及其系统”(专利申请号:201110378247.3),它提出的方法是:将原始数据流分割成实时数据流和历史数据流,并行处理实时数据流和历史数据流,并对他们的处理结果进行整合。这种方法通过对数据按时间进行分类,实时数据流的运算能够最大限度地以分布式并行处理,保证了大数据量的处理和高实时性。但这种方法没有解决异构数据之间关系问题,对于异构大数据如何协调之间的关联关系,并进行整合处理方面,还没有提出解决方法。专利“一种大数据量的数据查询方式”(专利申请号:201210075512.5),此方法先定义增量数据捕获方式,以及增量捕获调度执行计划,然后执行增量数据定期归集,最后执行数据统计结果查询。此方法把复杂的数据统计查询过程包分解成两个过程:统计计算归集和实时查询;将统计计算归集过程放在后台运行,并且归集过程只归集增量数据,提高了大数据量统计查询的执行效率。此方法主要是针对关系型数据数据库提出的,没有涉及到异构数据的处理。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于数据仓库的异构大数据整合方法和系统,建立结构化数据、半结构化数据及非结构化数据的关联关系,结合关系型数据库、分布式数据库以及内存数据库的各自的优势,整合各类数据,基于数据仓库做深层次数据分析,不断深化数据挖掘,实现高效、高质量的异构大数据分析处理。本专利技术技术方案如下:一种基于数据仓库的异构大数据整合方法,包括:数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中。其中,存储在关系型数据库中的数据主要是各个业务系统产生的数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等非结构化数据;存储在文件系统中的数据主要是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件等非结构化数据。各个业务系统中的数据,经过标准数据接口,通过ETL,加载到0DS,再从ODS通过ETL加载到数据仓库中。存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统(简称:hdfs)中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用。Hive是基于Hadoop的一个数据仓库工具,它将存储在hdfs中的网络日志文件这种半结构化文件映射到一张数据库表中,并提供完整的SQL语言进行数据的查询、处理等功能,Hive将SQL语言解析成Map/Reduce任务进行分布式运行处理。同时,Hive将存储在hdfs中的图片文件、文档文件等这种非结构化文件的属性映射到一张数据库表中。在这些数据库表中,包含有半结构化数据和非结构化数据,在其中存在有隐性的各种属性数据,包括隐性的行为数据等。通过将库表中的字段与数据仓库中的知识库建立关联关系,从而建立了隐性数据与数据仓库中显性业务数据之间的联系,为异构数据的整合做好准备。确定与网络日志、图片文件、文档文件等有关联的业务数据后,将他们从数据仓库提取出来,这其中包含有注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据。使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中,其中,HBase是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,它是一个适合于非结构化数据存储的数据库。这样在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,包括数据分组、数据排序、数据统计、数据异常检测等,从而完成对大量数据的预处理,实现异构数据间的初步整合。计算后的结果作为中间结果保存在HBase中。其中,MapReduce是一种编程模型,用于大规模数据集的并行运算。其中,Hive把一部分部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而可以分享给所有的数据集市使用。另一部分按照不同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中。那么在数据仓库和这些数据集市中包含有:各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据,以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据,还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果等。这些异构数据进行上述处理后,以结构化的形式存储在各个数据集市和数据仓库中。在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中。数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果。这样,每个数据集市就可以分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识。这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的本文档来自技高网
...

【技术保护点】
一种基于数据仓库的异构大数据整合方法,其特征在于:数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据;各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中;存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用;确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据;使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中;在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中;Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不 同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中;这些异构数据进行处理后,以结构化的形式存储在各个数据集市和数据仓库中;在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中;数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能;在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息。...

【技术特征摘要】
1.一种基于数据仓库的异构大数据整合方法,其特征在于: 数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据; 各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中; 存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用; 确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据; 使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中; 在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中; Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中; 这些异构数据进行处理后, 以结构化的形式存储在各个数据集市和数据仓库中; 在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中; 数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能; 在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息。2.根据权利要求1所述的方法,其特征在于:存储在关系型数据库中数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容非结构化数据。3.根据权利要求1所述的方法,其特征在于:Hive将存储在Hadoop分布式文件系统中的图片文件、文档文件等这种非结构化文件的属性映射到一张数据库表中;在这些数据库表中,包含有半结构化数据和非结构化数据,在其中存在有隐性的各种属性数据,包括隐性的行为数据等。通过将数据库表中的字段与数据仓库中的知识库建立关联关系,从而建立了隐性数据与数据仓库中显性业务数据之间的联系,为异构数据的整合做好准备。4.根据权利要求1所述的方法,其特征在于:分布式运算处理,包括数据分组、数据排序、数据统计、数据异常检测。5.根据权利要求1所述的方法,其特征在于,这些异构数据进行上述处理后,以结构化的形式加载到各个数据集市和数据仓库中,这时,在数据仓库和数据集市中包含有:各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据,还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果。6.一种基于数据仓库的异构大数据整合系统,其特征在于:它由业务系统模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块、通用文件系统、Hadoop分布式文件系统、Hive模块、HBase分布式数据库模块组成;其中,业务系统模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块依次连接;通用文件系统...

【专利技术属性】
技术研发人员:徐晓冬邹铁鹏何昌桃黄建鹏
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1