System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据导入方法、装置、设备以及计算机存储介质制造方法及图纸_技高网

数据导入方法、装置、设备以及计算机存储介质制造方法及图纸

技术编号:41139245 阅读:5 留言:0更新日期:2024-04-30 18:09
本发明专利技术实施例涉及计算机数据处理技术领域,公开了一种数据导入方法、装置、设备以及计算机存储介质,该方法包括:根据各条待导入数据在目标数据库中的查询优先级,确定各条待导入数据导入目标数据库时的数据导入顺序;根据预设的分片数量以及数据导入顺序,将多条待导入数据分别划分到多个数据分片中分片导入顺序根据数据分片内的待导入数据的数据导入顺序确定;将多个数据分片内的待导入数据格式转换为目标数据库对应的二进制存储格式的目标文件;待导入数据在目标文件内的顺序根据数据导入顺序确定;将各个目标文件按照目标文件对应的分片导入顺序依次导入目标数据库。通过上述方式,本发明专利技术实施例实现了导入速度和查询体验更佳的数据导入方案。

【技术实现步骤摘要】

本专利技术实施例涉及计算机数据处理,具体涉及一种数据导入方法、装置、设备以及计算机存储介质


技术介绍

1、证券行业具有数据海量、对于数据处理时效性要求较高的特点,因此如何对海量数据进行更快的导入以及查询,是提升用户体验的要点之一。

2、在实施现有技术的过程中,专利技术人发现:在将海量数据导入数据库的场景中,为了提高导入速度,现有一般采取数据库原生的批量导入机制,如mongodb的bulk load(批量加载)的方式批量写入,此种方式需要耗时数个小时。而对应地,针对海量数据进行查询,一般采取遍历查找的方式,其查找时延一般达到分钟级,由此导致用户的数据查询体验不佳。

3、因此,需要一种导入速度以及查询体验均更佳的数据导入方案。


技术实现思路

1、鉴于上述问题,本专利技术实施例提供了一种数据导入方法,用于解决现有技术中存在的导入速度以及查询体验不佳的问题。

2、根据本专利技术实施例的一个方面,提供了一种数据导入方法,所述方法包括:

3、获取多条待导入数据;

4、根据各条所述待导入数据在目标数据库中的查询优先级,确定各条所述待导入数据导入所述目标数据库时的数据导入顺序;

5、根据预设的分片数量以及所述数据导入顺序,将所述多条待导入数据分别划分到多个数据分片中;其中,各个所述数据分片对应不同的分片导入顺序;所述分片导入顺序根据所述数据分片内的所述待导入数据的所述数据导入顺序确定;

6、对所述多个数据分片内的所述待导入数据进行格式转换,分别得到各个所述数据分片对应的目标文件;其中,所述目标文件的格式为所述目标数据库对应的二进制存储格式;所述待导入数据在所述目标文件内的顺序根据所述数据导入顺序确定;

7、将各个所述目标文件按照所述目标文件对应的分片导入顺序依次导入所述目标数据库。

8、在一种可选的方式中,所述方法还包括:

9、根据各条所述待导入数据的数据特征和/或历史查询记录分别确定各条所述待导入数据的查询优先级;

10、将所有所述待导入数据的所述查询优先级进行比较,得到各条所述待导入数据的数据导入顺序。

11、在一种可选的方式中,所述数据特征包括各个所述待导入数据在预设的至少一个业务属性字段下的字段值;所述方法还包括:

12、根据所述历史查询记录确定所述待导入数据的历史查询热度;

13、根据所述业务属性字段对应的查询影响权重以及所述字段值的加权求和值和/或各个所述历史查询热度,确定各个所述待导入数据的查询重要度;

14、按照所述查询重要度对所有所述待导入数据进行排序,得到各个所述待导入数据对应的查询优先级。

15、在一种可选的方式中,所述方法还包括:

16、将所有所述目标文件存储到预设的分布式文件系统中,其中,所述目标文件在所述分布式文件系统中时根据所述目标文件对应的所述分片导入顺序命名;

17、从所述分布式文件系统根据所述命名依次读取所述目标文件导入至所述目标数据库中。

18、在一种可选的方式中,所述方法还包括:根据所述待导入数据的总数量与所述预设的分片数量的比值以及所述数据导入顺序,分别确定各个所述待导入数据对应的数据分片的信息;

19、根据所述数据分片对应的所有所述待导入数据的所述数据导入顺序确定所述数据分片对应的所述分片导入顺序。

20、在一种可选的方式中,所述方法还包括:

21、将各个所述待导入数据对应的数据分片的信息以及所述数据分片对应的分片导入顺序输入预设的分布式计算框架,得到划分完成的各个所述数据分片;

22、所述对所述多个数据分片内的所述待导入数据进行格式转换,分别得到各个所述数据分片对应的目标文件,包括:

23、通过所述分布式计算框架对所述多个数据分片内的所述待导入数据进行并发式格式转换,分别得到各个所述数据分片对应的目标文件。

24、在一种可选的方式中,所述目标数据库为mongodb;所述目标文件为第一bson文件;所述方法还包括:

25、按照所述分片导入顺序依次对所有所述第一bson文件进行拼接,得到第二bson文件;

26、调用mongodb中的预设的数据加载方法,以将所述第二bson文件导入所述mongodb。

27、根据本专利技术实施例的另一方面,提供了一种数据导入装置,所述装置包括:

28、获取模块,用于获取多条待导入数据;

29、确定模块,用于根据各条所述待导入数据在目标数据库中的查询优先级,确定各条所述待导入数据导入所述目标数据库时的数据导入顺序;

30、划分模块,用于根据预设的分片数量以及所述数据导入顺序,将所述多条待导入数据分别划分到多个数据分片中;其中,各个所述数据分片对应不同的分片导入顺序;所述分片导入顺序根据所述数据分片内的所述待导入数据的所述数据导入顺序确定;

31、转换模块,用于对所述多个数据分片内的所述待导入数据进行格式转换,分别得到各个所述数据分片对应的目标文件;其中,所述目标文件的格式为所述目标数据库对应的二进制存储格式;所述待导入数据在所述目标文件内的顺序根据所述数据导入顺序确定;

32、导入模块,用于将各个所述目标文件按照所述目标文件对应的分片导入顺序依次导入所述目标数据库。

33、根据本专利技术实施例的另一方面,提供了一种数据导入设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

34、所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行前述任意一项的数据导入方法的操作。

35、根据本专利技术实施例的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在数据导入设备上运行时,使得数据导入设备执行如前述任意一项所述的数据导入方法的操作。

36、本专利技术实施例通过获取多条待导入数据;根据各条所述待导入数据在目标数据库中的查询优先级,确定各条所述待导入数据导入所述目标数据库时的数据导入顺序;根据预设的分片数量以及所述数据导入顺序,将所述多条待导入数据分别划分到多个数据分片中;其中,各个所述数据分片对应不同的分片导入顺序;所述分片导入顺序根据所述数据分片内的所述待导入数据的所述数据导入顺序确定;对所述多个数据分片内的所述待导入数据进行格式转换,分别得到各个所述数据分片对应的目标文件;其中,所述目标文件的格式为所述目标数据库对应的二进制存储格式;所述待导入数据在所述目标文件内的顺序根据所述数据导入顺序确定;将各个所述目标文件按照所述目标文件对应的分片导入顺序依次导入所述目标数据库,能够加快导入速度以及提升查询体验更佳。从而区别于现有在海量数据导入依靠目标数据库的原生机制无法有效提升导入速率,以及现有只能随机写入,无法指定特定数据的导入顺序从而导致本文档来自技高网...

【技术保护点】

1.一种数据导入方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据各条所述待导入数据在目标数据库中的查询优先级,确定各条所述待导入数据导入所述目标数据库时的数据导入顺序,包括:

3.根据权利要求2所述的方法,其特征在于,所述数据特征包括各个所述待导入数据在预设的至少一个业务属性字段下的字段值;所述根据各条所述待导入数据的数据特征和/或历史查询记录分别确定各条所述待导入数据的查询优先级,包括:

4.根据权利要求1所述的方法,其特征在于,所述将各个所述目标文件按照所述目标文件对应的分片导入顺序依次导入所述目标数据库,包括:

5.根据权利要求1所述的方法,其特征在于,在所述根据预设的分片数量以及所述数据导入顺序,将所述多条待导入数据分别划分到多个数据分片中之前,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据预设的分片数量以及所述数据导入顺序,将所述多条待导入数据分别划分到多个数据分片中,包括:

7.根据权利要求1所述的方法,其特征在于,所述目标数据库为Mongodb;所述目标文件为第一BSON文件;所述将各个所述目标文件按照所述目标文件对应的分片导入顺序依次导入所述目标数据库,包括

8.一种数据导入装置,其特征在于,所述装置包括:

9.一种数据导入设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在数据导入设备上运行时,使得数据导入设备执行如权利要求1-7任意一项所述的数据导入方法的操作。

...

【技术特征摘要】

1.一种数据导入方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据各条所述待导入数据在目标数据库中的查询优先级,确定各条所述待导入数据导入所述目标数据库时的数据导入顺序,包括:

3.根据权利要求2所述的方法,其特征在于,所述数据特征包括各个所述待导入数据在预设的至少一个业务属性字段下的字段值;所述根据各条所述待导入数据的数据特征和/或历史查询记录分别确定各条所述待导入数据的查询优先级,包括:

4.根据权利要求1所述的方法,其特征在于,所述将各个所述目标文件按照所述目标文件对应的分片导入顺序依次导入所述目标数据库,包括:

5.根据权利要求1所述的方法,其特征在于,在所述根据预设的分片数量以及所述数据导入顺序,将所述多条待导入数据分别划分到多个数据分片中之前,包括:

【专利技术属性】
技术研发人员:何志强安栋刘威
申请(专利权)人:国信证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1