一种基于数据流技术的实时数据加载方法和装置制造方法及图纸

技术编号:10182830 阅读:137 留言:0更新日期:2014-07-03 13:30
本发明专利技术公开了一种基于数据流技术的实时数据加载方法,包括:设置数据流操作算子集;根据业务需要从算子集中选取若干个算子生成数据流的实时查询处理表达式;根据所述实时查询处理表达式设置数据流的实时加载网络;驱动控制进入实时加载网络中的数据流,并为数据流动态分配缓存空间;输出结果数据流,并加载到实时数据仓库中。本发明专利技术还同时公开了一种基于数据流技术的实时数据加载装置,运用该方法和装置可实现数据的实时转换和连续加载,并可灵活构建实时加载网络。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于数据流技术的实时数据加载方法,包括:设置数据流操作算子集;根据业务需要从算子集中选取若干个算子生成数据流的实时查询处理表达式;根据所述实时查询处理表达式设置数据流的实时加载网络;驱动控制进入实时加载网络中的数据流,并为数据流动态分配缓存空间;输出结果数据流,并加载到实时数据仓库中。本专利技术还同时公开了一种基于数据流技术的实时数据加载装置,运用该方法和装置可实现数据的实时转换和连续加载,并可灵活构建实时加载网络。【专利说明】一种基于数据流技术的实时数据加载方法和装置
本专利技术涉及数据管理
,尤其涉及一种实时数据仓库中基于数据流技术的实时数据加载方法和装置。
技术介绍
实时数据仓库是为适应市场快速变化和实时企业管理决策而出现的数据仓库技术的新的分支。实时数据仓库扩展了传统数据仓库的能力,使数据仓库的发展在经历了报表阶段、分析阶段和预测阶段以后,进入到了实时决策阶段。实时数据仓库为了满足商务应用对实时数据和主动决策的需求,需要实时捕获数据源中发生的变化,并根据预先设置的规则做出决策,从而对数据源数据的及时加载提出了新的要求。实时数据加载技术需要将数据抽取周期从通常的一个月一次、一周一次、或者一天一次缩短到数据源一有新鲜数据,就可以实时地加载和集成到数据仓库中,这使得数据加载的频率大大提高了,也对传统数据仓库加载能力提出了挑战。目前数据仓库有多种加载方式,如:基于数据库脚本技术的加载方式,基于数据提取、转换和加载(Extraction-Transformation-Loading, ETL)技术的加载方式,基于企业应用整合(Enterprise Application Integration,EAI)技术的加载方式,以及基于改变数据捕获(Change Data Capture, CDC)技术的加载方式。其中,所述数据库脚本技术是用于创建数据库对象的语句的集合,当对数据库进行处理时,通常将它保存为诸如.sql为后缀的文件。目前,利用数据库脚本技术的专利申请号为200710000916.7,专利技术名称为“数据库脚本通用化实现系统和方法”,其所提供的实现方法能够提高开发效率和节省维护时间,但是数据库脚本技术的不足之处为:在加载频率上不具有连续性,延迟也比较大,并且也难以保证数据的一致性。所述ETL技术负责将分布、异构数据源中的数据,如:关系数据、平面数据文件等抽取到临时中间层,然后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。使用ETL技术的好处在于它是实现大规模数据加载的理想解决方案,可提供对多种数据源的支持和强大的数据转换能力,并且可以很好地处理异构数据。作为传统数据仓库最主要的数据抽取技术,目前基于ETL技术进行数据抽取的专利技术专利很多,例如:专利申请号为200610041433.7,专利技术名称为“一种利用ETL技术对计费数据进行抽取提供的方法”的技术方案;专利号为200910203276.9,专利技术名称为“一种ETL调度的实现方法及装置”的技术方案;以及专利号为200910137527.8,专利技术名称为“一种实现ETL调度的方法及系统”的技术方案等。这些技术方案实现的主要目标是对ETL技术进行调整,使之能用于特定的领域,如计费数据;或者有效提升ETL调度流程的执行效率。但是,这类技术存在如下缺陷:数据加载频率不具有连续性、延迟较大,而且在ETL任务执行期间,是默认数据源不发生变化的,且正被加载的数据不能用于查询和分析处理。所述EAI技术是基于各种不同平台、不同方案而建立的异构应用集成技术。EAI通过建立底层结构来联系横贯整个企业的异构系统、应用、数据源等,完成在企业内部的企业资源计划(ERP)系统、客户关系管理(CRM)系统、供应链管理(SCM)系统、数据库、数据仓库、以及其它重要的内部系统之间的无缝共享和数据交换。EAI技术作为ETL技术的补充和扩展,在很多领域也有应用。目前利用EAI技术的技术方案有:专利申请号为200810110883.6,专利技术名称为“数字物流管理系统的EAI子模块”等,这类技术方案主要是利用EAI子模块实现统一的物流信息数据仓库,加速物流信息的沟通和共享。但EAI技术通常受到数据规模的限制,虽然可以完成在源系统和目标系统之间进行连续的数据分发,但只能进行基本的数据转换,在数据加载网络的构建上缺乏灵活性,对于不同的分析平台需要专门地开发加载处理。所述CDC技术是一种变化数据的捕捉技术,它通过变化捕捉代理、变化数据服务、变化分发机制等模块来实现高效的实时数据集成。CDC技术作为近几年刚出现的新的数据加载方式,受到越来越多的关注和应用。目前,利用CDC技术的技术方案有:专利申请号为200910018202.8,专利技术名称为“基于Oracle⑶C技术实现的变更数据抽取方法”等,这些技术方案实现的主要目标是确保信息直接在源和目标之间最有效、最快速的路径中流通。但是,CDC技术具有比较复杂的组件构成和处理逻辑,所以开发该技术需要投入大量的人力财力,而且该类技术也只能保证最基本的数据转换。上述各种数据加载方式的特点如下表1所示:【权利要求】1.一种基于数据流技术的实时数据加载方法,其特征在于,设置数据流操作算子集;该方法还包括: 根据业务需要从算子集中选取若干个算子生成数据流的实时查询处理表达式;根据所述实时查询处理表达式设置数据流的实时加载网络;驱动控制进入实时加载网络中的数据流,并为数据流动态分配缓存空间;输出结果数据流,并加载到实时数据仓库中。2.根据权利要求1所述的基于数据流技术的实时数据加载方法,其特征在于,所述算子集中包括:基本算子和复合算子; 其中,所述基本算子为进行数据清洗与转换的必需算子,所述复合算子为基本算子的组合算子。3.根据权利要求1或2所述的基于数据流技术的实时数据加载方法,其特征在于,所述根据所述实时查询处理表达式设置数据流的实时加载网络,为: 对应实时查询处理表达式中的每一个数据源,构建网络输入节点; 将实时查询处理表达式中每一个复合算子与常用算子,转化为与复合算子与常用算子得语义等价的基本算子的表达式; 对应转化后的所述基本算子表达式中的每一个基本算子,在网络中构建基本算子节占.在网络末端构 建唯一的网络输出节点; 按逻辑处理顺序在各节点间设置边。4.根据权利要求3所述的基于数据流技术的实时数据加载方法,其特征在于,该方法还包括: 以数据源中数据内容的名称为所述输入节点命名。5.根据权利要求3所述的基于数据流技术的实时数据加载方法,其特征在于,该方法还包括: 以基本算子的名称、基本算子的处理逻辑以及基本算子节点所处理的数据流的名称共同为所述基本算子节点命名。6.根据权利要求1或2所述的基于数据流技术的实时数据加载方法,其特征在于,所述驱动控制进入实时加载网络中的数据流,并为数据流动态分配缓存空间,为: 设置数据流中每个元组的存储结构,并对数据流的缓存空间进行初始化;驱动控制实时加载网络中的数据;为数据流动态分配缓存空间。7.根据权利要求6所述的基于数据流技术的实时数据加载方法,其特征在于,所述驱动控制实时加载网络中的数据,为: 设置每条边的起点所对应的节本文档来自技高网...

【技术保护点】
一种基于数据流技术的实时数据加载方法,其特征在于,设置数据流操作算子集;该方法还包括:根据业务需要从算子集中选取若干个算子生成数据流的实时查询处理表达式;根据所述实时查询处理表达式设置数据流的实时加载网络;驱动控制进入实时加载网络中的数据流,并为数据流动态分配缓存空间;输出结果数据流,并加载到实时数据仓库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭向红尤新霞庞哲翀郭翔宇孙颖飞王波张大亮
申请(专利权)人:中国移动通信集团内蒙古有限公司
类型:发明
国别省市:蒙古;MN

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1