System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种抽取数据的方法、电子设备和存储介质技术_技高网

一种抽取数据的方法、电子设备和存储介质技术

技术编号:40841050 阅读:9 留言:0更新日期:2024-04-01 15:07
本申请公开了一种抽取数据的方法、电子设备和存储介质,该方法包括:获取用户从配置页面上配置的待抽取数据集类型和磁盘抽取时间;以及,响应于待抽取数据集类型为第一数据集类型,从数据存储系统的预写式日志中抽取第一业务数据,以及在磁盘读取时间从数据存储系统对应的磁盘中读取第二业务数据,第一业务数据的存储时间与目标日期有关,第二业务数据的存储时间与除目标日期以外的其他日期有关;利用第一业务数据和第二业务数据得到第一数据集类型的业务数据集。通过上述方式,本申请能够在减小对数据存储系统的读写性能的影响和降低开发成本的情况下,实现业务数据的抽取。

【技术实现步骤摘要】

本申请涉及数据处理,特别是涉及一种抽取数据的方法、电子设备和存储介质


技术介绍

1、数据仓库是各方数据聚合中心,数据源也多样化,包括了结构化,半结构化,非结构化数据。数据存储系统可以用于存储数据,以在必要时提供给下游人员使用。以hbase为例,hbase可以存入海量数据,且能做到低延时查询数据、高频写入数据。但是hbase自身不方便用户对数据进行处理,如抽取、转换、加载,因此需要将hbase中存储的数据抽取到数据仓库中,以方便下游人员使用数据。

2、现有技术采用hbase自身工具如copytable、snapshot抽取数据,该方式会引起磁盘输入输出(io)以及网络io升高,io升高会直接影响实时业务的正常读写。进一步地,现有技术在每次抽取数据时,均需要开发人员更改代码,增加了开发成本。


技术实现思路

1、本申请主要解决的技术问题是提供一种抽取数据的方法、电子设备和存储介质,能够在减小对数据存储系统的读写性能的影响和降低开发成本的情况下,实现业务数据的抽取。

2、本申请第一方面提供了一种抽取数据的方法,该方法包括:获取用户从配置页面上配置的待抽取数据集类型和磁盘抽取时间;以及,响应于待抽取数据集类型为第一数据集类型,从数据存储系统的预写式日志中抽取第一业务数据,以及在磁盘读取时间从数据存储系统对应的磁盘中读取第二业务数据,第一业务数据的存储时间与目标日期有关,第二业务数据的存储时间与除目标日期以外的其他日期有关;利用第一业务数据和第二业务数据得到第一数据集类型的业务数据集。

3、本申请第二方面提供了一种抽取数据的方法,该方法包括:从抽数存储池中读取目标业务数据,其中,抽数存储池存储有第一数据集类型的业务数据集,第一数据集类型的业务数据集包含第一业务数据和第二业务数据,第一业务数据是从数据存储系统的预写式日志中抽取且存储时间与目标日期有关,第二业务数据是在磁盘读取时间从数据存储系统对应的磁盘中读取且存储时间与目标日期以外的其他日期有关,第一数据集类型和磁盘读取时间是用户通过配置页面配置得到的;将目标业务数据存储至数据仓库中。

4、本申请第三方面提供了一种电子设备,该电子设备包含相互耦接的存储器和处理器,存储器存储有程序指令,处理器用于执行存储器中存储的程序指令,以实现上述第一方面和第二方面所述的方法。

5、本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被执行以实现上述第一方面和第二方面所述的方法。

6、本申请的有益效果是:区别于现有技术的情况,本申请获取用户从配置页面上配置的待抽取数据集类型和磁盘抽取时间;响应于待抽取数据集类型为第一数据集类型,从数据存储系统的预写式日志中抽取第一业务数据,以及在磁盘抽取时间从数据存储系统对应的磁盘中读取第二业务数据,第一业务数据的存储时间与目标日期有关,第二业务数据的存储时间与除目标日期以外的其他日期有关;利用第一业务数据和第二业务数据得到第一数据集类型的业务数据集。用户通过从配置页面上配置的待抽取数据集类型即可获取需要的业务数据,无需更改代码,即可降低开发成本;进一步地,在磁盘抽取时间从磁盘中存储业务数据,可以最大程度减小磁盘io升高,进而减小对数据存储系统的读写性能的影响。

本文档来自技高网...

【技术保护点】

1.一种抽取数据的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述获取用户从配置页面上配置的待抽取数据集类型和磁盘抽取时间之后,所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述从数据存储系统的预写式日志中抽取第一业务数据,包括:

4.根据权利要求3所述的方法,其特征在于,在所述从所述数据存储系统的预写式日志中抽取满足第一要求的业务数据作为第一业务数据之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,在所述利用所述第一业务数据和所述第二业务数据得到所述第一数据集类型的业务数据集之后,还包括:

6.一种抽取数据的方法,其特征在于,所述方法包括:

7.根据权利要求6所述的方法,其特征在于,所述从抽数存储池中读取得到目标业务数据集,包括:

8.根据权利要求7所述的方法,其特征在于,在所述从所述待读取数据集中读取至少部分业务数据,以得到所述目标业务数据集之前,还包括:

9.根据权利要求6所述的方法,其特征在于,所述方法还包括:

10.根据权利要求9所述的方法,其特征在于,所述抽数存储池中存储有多个对应不同日期的第二数据集类型的业务数据集,每个日期的第二数据集类型的业务数据集包含所述数据存储系统中与所述日期相关的业务数据;

11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令能够被执行以实现如权利要求1-10任一项所述的方法。

...

【技术特征摘要】

1.一种抽取数据的方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述获取用户从配置页面上配置的待抽取数据集类型和磁盘抽取时间之后,所述方法还包括:

3.根据权利要求1或2所述的方法,其特征在于,所述从数据存储系统的预写式日志中抽取第一业务数据,包括:

4.根据权利要求3所述的方法,其特征在于,在所述从所述数据存储系统的预写式日志中抽取满足第一要求的业务数据作为第一业务数据之前,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,在所述利用所述第一业务数据和所述第二业务数据得到所述第一数据集类型的业务数据集之后,还包括:

6.一种抽取数据的方法,其特征在于,所述方法包括:

7.根据权利要求6所述的方法,...

【专利技术属性】
技术研发人员:谢朝胜蒋宁王辉刘德华曾琳铖曦吴海英伍应标冯仕炳
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1