【技术实现步骤摘要】
一种基于数据仓库的异构大数据整合方法和系统
本专利技术主要涉及互联网领域,尤其涉及一种基于数据仓库的异构大数据整合方法和系统。
技术介绍
商业智能(BI, Business Intelligence)综合利用数据仓库、ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储,并对数据进行分析,提取出其中蕴藏的知识,从而帮助企业进行决策分析,在企业中得到了越来越广泛的应用。随着互联网的快速发展,使互联网的应用越来越丰富,这些应用让互联网留存了海量的数据信息,包括用户的浏览记录,交易记录、日志文件、网络页面信息以及超链接。如何在海量的、动态的互联网信息数据中获取有用的知识,是商业智能的价值所在。但是传统的商业智能架构移植到互联网应用领域会产生严重的“水土不服”现象,因为如下几种情况限制了传统的商业智能架构的作用:?互联网应用中数据源多种多样,包含各种关系型数据库保存的数据,社交网络产生的数据,网络日志数据、图片文件、文本文件等。但传统的商业智能都是以处理各种关系型数据库中的数据见长。籲互联网数据量巨大。目前各类网站,特别是运营时间比较长的电子商务网站,都会产生了巨大的网络日志,而且在数据库中也存储了大量的各类数据,包括产品数据、商情数据、询盘数据等,另外,还有大量的各类数据文件保存在服务器中,在处理这么大规模的数据都出现了很多新的问题,而传统的关系型数据库目前已经无法满足处理如此大规模数据的要求。?电子商务对于数据分析的实时性要求极高,有很大部分的数据只在短时间内才能体现数据的价值,处理数据速度的快慢就显得尤为重要。?用户量巨大,互联网特别 ...
【技术保护点】
一种基于数据仓库的异构大数据整合方法,其特征在于:数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据;各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中;存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用;确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据;使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中;在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HB ...
【技术特征摘要】
1.一种基于数据仓库的异构大数据整合方法,其特征在于: 数据源分为两部分存储,一部分存储在关系型数据库中,另一部分存储在文件系统中;其中,存储在关系型数据库中的数据是各个业务系统产生的数据,包括结构化数据和非结构化数据;存储在文件系统中的数据是以网络日志文件为主的半结构化数据,以及各类图片文件和文档文件非结构化数据; 各个业务系统中的数据,经过标准数据接口,通过ETL,加载到ODS,再从ODS通过ETL加载到数据仓库中; 存储在文件系统中的各类图片文件和文档文件,首先加载到Hadoop分布式文件系统中,再利用Map/Reduce对这些文件进行处理,使之能够被Hive所使用; 确定与网络日志、图片文件、文档文件有关联的业务数据后,将他们从数据仓库提取出来,这其中包含结构化数据和文本型的非结构化数据; 使之与网络日志信息、图片文件、文档文件中的相应数据对应后,存储在HBase分布式数据库中; 在HBase存有大量的各类异构数据,根据业务需要,利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理,从而完成对大量数据的预处理,实现异构数据间的初步整合;计算后的结果作为中间结果保存在HBase中; Hive把一部分关联数据以及计算得出的中间结果,通过ETL再加载到数据仓库中,从而分享给所有的数据集市使用;另一部分按照不同数据集市的主题需要,通过ETL,加载到各个不同主题的数据集市中; 这些异构数据进行处理后, 以结构化的形式存储在各个数据集市和数据仓库中; 在各个不同主题的数据集市中,依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算,形成各自主题领域内的局部知识结果,然后数据集市将各自的局部知识结果回写到数据仓库中; 数据仓库对各个业务主题的局部知识结果进行统一存储并整理,形成数据仓库中的知识层,得到全局知识结果;每个数据集市能够分享到整体业务的知识,并利用知识层的数据进一步挖掘更多的数据知识;这个过程不断循环进行,形成一个有效的知识信息闭环,提高了知识的重复利用以及数据挖掘的性能; 在数据集市中,常用数据以类似数据库的结构写入内存,这些数据一直驻留内存,形成简易便捷的内存数据库,网站活动事务数据和内存数据库中的数据进行交互处理;通过内存数据库,用户通过在线分析实时监控网上访问情况,询盘数据实时信息。2.根据权利要求1所述的方法,其特征在于:存储在关系型数据库中数据,包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容非结构化数据。3.根据权利要求1所述的方法,其特征在于:Hive将存储在Hadoop分布式文件系统中的图片文件、文档文件等这种非结构化文件的属性映射到一张数据库表中;在这些数据库表中,包含有半结构化数据和非结构化数据,在其中存在有隐性的各种属性数据,包括隐性的行为数据等。通过将数据库表中的字段与数据仓库中的知识库建立关联关系,从而建立了隐性数据与数据仓库中显性业务数据之间的联系,为异构数据的整合做好准备。4.根据权利要求1所述的方法,其特征在于:分布式运算处理,包括数据分组、数据排序、数据统计、数据异常检测。5.根据权利要求1所述的方法,其特征在于,这些异构数据进行上述处理后,以结构化的形式加载到各个数据集市和数据仓库中,这时,在数据仓库和数据集市中包含有:各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据,以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据,还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果。6.一种基于数据仓库的异构大数据整合系统,其特征在于:它由业务系统模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块、通用文件系统、Hadoop分布式文件系统、Hive模块、HBase分布式数据库模块组成;其中,业务系统模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块依次连接;通用文件系统...
【专利技术属性】
技术研发人员:徐晓冬,邹铁鹏,何昌桃,黄建鹏,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。