一种用于处理数据信息的方法、设备、介质及程序产品技术

技术编号:36849927 阅读:10 留言:0更新日期:2023-03-15 17:07
本申请的目的是提供一种用于处理数据信息的方法、设备介质及程序产品。方法包括:在第一检测时间,获取目标数据仓库工具的第一版本数据;根据一个或多个第一字段信息,以及第二检测时间检测第一版本数据中是否存在第一目标字段信息,其中,第二检测时间包括用户设备在第一检测时间之前对目标数据仓库工具完成检测的时间,第一目标字段信息存在于第一版本数据,且不存在于第二检测时间对应的、目标数据仓库工具的第二版本数据;若存在,建立变更数据仓库工具。本申请通过检测目标数据仓库工具在一段时间内的变化的第一目标字段信息,达到只将所述第一目标字段信息导入目标集群,大大提高了数据处理效率,并节约资源。并节约资源。并节约资源。

【技术实现步骤摘要】
一种用于处理数据信息的方法、设备、介质及程序产品


[0001]本申请涉及通信领域,尤其涉及一种用于处理数据信息的技术。

技术介绍

[0002]Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Elasticsearch是位于Elastic Stack核心的分布式搜索和分析引擎。
[0003]当前在对从外部数据源导入Hive表中的数据,再导出到Elasticsearch进行实时查询的场景。如果后期导入Hive表的数据和前期导入Hive表的数据有字段的增加或者更新,需要从Hive表全量导入到Elasticsearch。随着数据量的增加,每次使用spark程序全量从Hive表导出数据到Elasticsearch,效率低,且消耗大量资源。而且随着数据量的增加,全量导出容易出现瓶颈。

技术实现思路

[0004]本申请的一个目的是提供一种用于处理数据信息的方法、设备、介质及程序产品。
[0005]根据本申请的一个方面,提供了一种用于处理数据信息的方法,所述方法包括:在第一检测时间,获取目标数据仓库工具的第一版本数据,其中,所述第一版本数据包括一个或多个第一字段信息;根据所述一个或多个第一字段信息,以及第二检测时间检测所述第一版本数据中是否存在第一目标字段信息,其中,所述第二检测时间包括所述用户设备在所述第一检测时间之前对所述目标数据仓库工具完成检测的时间,所述第一目标字段信息存在于所述第一版本数据,且不存在于所述第二检测时间对应的、所述目标数据仓库工具的第二版本数据;若存在,建立变更数据仓库工具,其中,所述变更数据仓库工具中包括至少一个所述第一目标字段信息,所述变更数据仓库工具用于存储所述至少一个第一目标字段信息,以便后续将所述至少一个第一目标字段信息导入目标集群。
[0006]根据本申请的一个方面,提供了一种用于处理数据信息的设备,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述任一方法的操作。
[0007]根据本申请的一个方面,提供了一种存储指令的计算机可读介质,所述指令在被执行时使得系统进行如上所述任一方法的操作。
[0008]根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述任一方法的步骤。
[0009]与现有技术相比,本申请在第一检测时间,获取目标数据仓库工具的第一版本数据,所述第一版本数据包括一个或多个第一字段信息;根据所述一个或多个第一字段信息,
以及第二检测时间检测第一版本数据中是否存在第一目标字段信息,第一目标字段信息存在于第一版本数据,且不存在于第二版本数据,以检测出所述目标数据仓库工具在第二检测时间和第一检测时间之间的这段时间中,变换的字段信息。若存在所述第一目标字段信息,建立变更数据仓库工具,通过变更数据仓库工具存储所述目标数据仓库工具的至少一个所述第一目标字段信息,后续将所述变更数据仓库工具中的所述至少一个目标字段信息导入目标集群即可。本申请通过检测目标数据仓库工具在一段时间内的变化的第一目标字段信息,达到只将所述第一目标字段信息导入目标集群,大大提高了数据处理效率,并节约资源。
附图说明
[0010]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个实施例的用于处理数据信息的方法流程图;图2示出根据本申请一个实施例的用于处理数据信息的设备结构示意图;图3示出可被用于实施本申请中所述的各个实施例的示例性系统。
具体实施方式
[0011]下面结合附图对本申请作进一步详细描述。
[0012]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如,中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
[0013]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(Random Access Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。
[0014]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase

Change Memory,PCM)、可编程随机存取存储器(Programmable Random Access Memory,PRAM)、静态随机存取存储器(Static Random

Access Memory,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically

Erasable Programmable Read

Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read

Only Memory,CD

ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0015]本申请所指设备包括但不限于终端、网络设备、或终端与网络设备通过网络相集成所构成的设备。所述终端包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如Android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不
限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于处理数据信息的方法,应用于网络设备端,其特征在于,所述方法包括:在第一检测时间,获取目标数据仓库工具的第一版本数据,其中,所述第一版本数据包括一个或多个第一字段信息;根据所述一个或多个第一字段信息,以及第二检测时间检测所述第一版本数据中是否存在第一目标字段信息,其中,所述第二检测时间包括所述用户设备在所述第一检测时间之前对所述目标数据仓库工具完成检测的时间,所述第一目标字段信息存在于所述第一版本数据,且不存在于所述第二检测时间对应的、所述目标数据仓库工具的第二版本数据;若存在,建立变更数据仓库工具,其中,所述变更数据仓库工具中包括至少一个所述第一目标字段信息,所述变更数据仓库工具用于存储所述至少一个第一目标字段信息,以便后续将所述至少一个第一目标字段信息导入目标集群。2.根据权利要求1所述的方法,其特征在于,每个所述第一字段信息对应有第一创建时间,所述根据所述一个或多个第一字段信息,以及第二检测时间检测所述第一版本数据中是否存在第一目标字段信息,包括:根据所述一个或多个第一字段信息中每个所述第一字段信息的第一创建时间,以及所述第二检测时间检测所述第一数据信息中是否存在第一目标字段信息,其中,所述第一创建时间晚于所述第二检测时间,且等于或早于所述第一检测时间,所述第一目标字段信息存在于所述第一版本数据,且不存在于所述第二版本数据。3.根据权利要求1所述的方法,其特征在于,所述若存在,建立变更数据仓库工具,包括:若存在,建立变更数据仓库工具,其中,若所述第一目标字段信息的变更类型包括第一变更类型,则所述变更数据仓库工具中包括该第一目标字段信息在所述目标数据仓库工具中的位置信息,所述变更数据仓库工具中包括至少一个所述第一目标字段信息,所述变更数据仓库工具用于存储所述至少一个第一目标字段信息,以便后续将所述至少一个第一目标字段信息导入目标集群。4.根据权利要求3所述的方法,其特征在于,所述方法在若存在,建立变更数据仓库工具,之前还包括:根据所述第一目标字段信息确定该第一目标字段信息的变更...

【专利技术属性】
技术研发人员:周鹏辉
申请(专利权)人:企知道网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1