数据表拼接方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24207839 阅读:13 留言:0更新日期:2020-05-20 15:27
本申请涉及一种数据表拼接方法、装置、计算机设备和存储介质,包括:获取原始数据表;通过原始数据表对应的框架的内置函数在原始数据表中添加第一数据列,第一数据列的数据是有序不连续的;通过原始数据表对应的框架的内置函数在原始数据表中添加第二数据列,第二数据列的数据是相同数值的常数;根据第一数据列和第二数据列定义第一窗口规范,根据第一窗口规范通过原始数据表对应的框架的第一窗口函数在原始数据表中添加第一主键列,第一主键列的数据是单调连续递增的;获取目标待拼接数据表,目标待拼接数据表包括第二主键列;将第一主键列和第二主键列进行匹配,根据匹配结果将原始数据表和目标待拼接数据表进行拼接,得到目标拼接数据表。

Data table splicing method, device, computer equipment and storage medium

【技术实现步骤摘要】
数据表拼接方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种数据表拼接方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,计算机需要计算处理的数据量越来越庞大。针对大规模数据量的处理,可以采用大数据处理系统,例如主流的大数据处理系统ApacheSpark。大数据处理系统可以处理多种数据结构的数据表。传统方式中,在一些特定数据结构的数据表上添加一列数据只能通过对该数据表现有数据列的转换或者只能在该数据表上添加有规律的一列数据,例如添加一列数据全为“男”的“性别”列,传统方法存在无法在该数据表上添加无规律的多列数据的问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够在数据表上添加无规律的多列数据的数据表拼接方法、装置、计算机设备和存储介质。一种数据表拼接方法,所述方法包括:获取原始数据表;通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第一数据列,所述第一数据列的数据是有序不连续的;通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第二数据列,所述第二数据列的数据是相同数值的常数;根据所述第一数据列和第二数据列定义第一窗口规范,根据所述第一窗口规范通过所述原始数据表对应的框架的第一窗口函数在所述原始数据表中添加第一主键列,所述第一主键列的数据是单调连续递增的;获取目标待拼接数据表,所述目标待拼接数据表包括第二主键列;将所述第一主键列和第二主键列进行匹配,根据匹配结果将所述原始数据表和目标待拼接数据表进行拼接,得到目标拼接数据表。在其中一个实施例中,所述获取目标待拼接数据表之前,所述方法还包括:获取原始待拼接数据表;当所述原始待拼接数据表和原始数据表的数据结构一致时,通过所述原始数据表对应的框架的内置函数在所述原始待拼接数据表中添加第三数据列,通过所述原始数据表对应的框架的内置函数在所述原始待拼接数据表中添加第四数据列;根据所述第三数据列和第四数据列定义第二窗口规范,根据所述第二窗口规范通过所述原始数据表对应的框架的第二窗口函数在所述原始待拼接数据表中添加所述第二主键列,得到所述目标待拼接数据表。在其中一个实施例中,所述方法还包括:当所述原始待拼接数据表和原始数据表的数据结构不一致,并且所述原始待拼接数据表的数据结构为基础数据结构时,在所述原始待拼接数据表中添加所述第二主键列,得到候选待拼接数据表;获取所述候选待拼接数据表的数据;根据所述候选待拼接数据表的数据创建所述目标待拼接数据表,所述目标待拼接数据表和所述原始数据表的数据结构一致。在其中一个实施例中,所述方法还包括:当所述原始待拼接数据表和原始数据表的数据结构不一致,并且所述原始待拼接数据表的数据结构为基础数据结构和原始数据表的数据结构之外的其他数据结构时,通过所述原始数据表对应的框架的转换函数将所述原始待拼接数据表的数据结构转换为所述原始数据表的数据结构;在转换后的原始待拼接数据表中添加所述第三数据列和第四数据列。在其中一个实施例中,所述根据所述第一数据列和第二数据列定义第一窗口规范,包括:获取所述原始数据表的预设分区数;将所述第一数据列作为排序规范列,根据所述预设分区数将所述第二数据列作为分区规范列;根据所述排序规范列和分区规范列定义第一窗口规范。在其中一个实施例中,所述将所述第一主键列和第二主键列进行匹配,根据匹配结果将所述原始数据表和目标待拼接数据表进行拼接,得到目标拼接数据表,包括:获取所述第一主键列和第二主键列;通过所述原始数据表对应的框架的连接函数将所述第一主键列和第二主键列中相同数据进行合并,将所述相同数据对应的行数据进行拼接,得到初始拼接数据表,所述初始拼接数据表包括第三主键列,所述第三主键列是从所述第一主键列和第二主键列中根据拼接方式确定的;删除所述第三主键列,得到所述目标拼接数据表。一种数据表拼接装置,所述装置包括:数据表获取模块,用于获取原始数据表;获取目标待拼接数据表,所述目标待拼接数据表包括第二主键列;数据列添加模块,用于通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第一数据列,所述第一数据列的数据是有序不连续的;通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第二数据列,所述第二数据列的数据是相同数值的常数;根据所述第一数据列和第二数据列定义第一窗口规范,根据所述第一窗口规范通过所述原始数据表对应的框架的第一窗口函数在所述原始数据表中添加第一主键列,所述第一主键列的数据是单调连续递增的;数据表拼接模块,用于将所述第一主键列和第二主键列进行匹配,根据匹配结果将所述原始数据表和目标待拼接数据表进行拼接,得到目标拼接数据表。在其中一个实施例中,所述装置还包括:数据表生成模块,用于获取原始待拼接数据表;当所述原始待拼接数据表和原始数据表的数据结构一致时,通过所述原始数据表对应的框架的内置函数在所述原始待拼接数据表中添加第三数据列,通过所述原始数据表对应的框架的内置函数在所述原始待拼接数据表中添加第四数据列;根据所述第三数据列和第四数据列定义第二窗口规范,根据所述第二窗口规范通过所述原始数据表对应的框架的第二窗口函数在所述原始待拼接数据表中添加所述第二主键列,得到所述目标待拼接数据表。在其中一个实施例中,所述数据表生成模块还用于当所述原始待拼接数据表和原始数据表的数据结构不一致,并且所述原始待拼接数据表的数据结构为基础数据结构时,在所述原始待拼接数据表中添加所述第二主键列,得到候选待拼接数据表;获取所述候选待拼接数据表的数据;根据所述候选待拼接数据表的数据创建所述目标待拼接数据表,所述目标待拼接数据表和所述原始数据表的数据结构一致。在其中一个实施例中,所述数据表生成模块还用于当所述原始待拼接数据表和原始数据表的数据结构不一致,并且所述原始待拼接数据表的数据结构为基础数据结构和原始数据表的数据结构之外的其他数据结构时,通过所述原始数据表对应的框架的转换函数将所述原始待拼接数据表的数据结构转换为所述原始数据表的数据结构;在转换后的原始待拼接数据表中添加所述第三数据列和第四数据列。在其中一个实施例中,所述数据列添加模块还用于获取所述原始数据表的预设分区数;将所述第一数据列作为排序规范列,根据所述预设分区数将所述第二数据列作为分区规范列;根据所述排序规范列和分区规范列定义第一窗口规范。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取原始数据表;通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第一数据列,所述第一数据列的数据是有序不连续的;通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第二数据列,所述第二数据列的数据是相同数值的常数;根据所述第一数据列和第二本文档来自技高网...

【技术保护点】
1.一种数据表拼接方法,所述方法包括:/n获取原始数据表;/n通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第一数据列,所述第一数据列的数据是有序不连续的;/n通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第二数据列,所述第二数据列的数据是相同数值的常数;/n根据所述第一数据列和第二数据列定义第一窗口规范,根据所述第一窗口规范通过所述原始数据表对应的框架的第一窗口函数在所述原始数据表中添加第一主键列,所述第一主键列的数据是单调连续递增的;/n获取目标待拼接数据表,所述目标待拼接数据表包括第二主键列;/n将所述第一主键列和第二主键列进行匹配,根据匹配结果将所述原始数据表和目标待拼接数据表进行拼接,得到目标拼接数据表。/n

【技术特征摘要】
1.一种数据表拼接方法,所述方法包括:
获取原始数据表;
通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第一数据列,所述第一数据列的数据是有序不连续的;
通过所述原始数据表对应的框架的内置函数在所述原始数据表中添加第二数据列,所述第二数据列的数据是相同数值的常数;
根据所述第一数据列和第二数据列定义第一窗口规范,根据所述第一窗口规范通过所述原始数据表对应的框架的第一窗口函数在所述原始数据表中添加第一主键列,所述第一主键列的数据是单调连续递增的;
获取目标待拼接数据表,所述目标待拼接数据表包括第二主键列;
将所述第一主键列和第二主键列进行匹配,根据匹配结果将所述原始数据表和目标待拼接数据表进行拼接,得到目标拼接数据表。


2.根据权利要求1所述的方法,其特征在于,所述获取目标待拼接数据表之前,所述方法还包括:
获取原始待拼接数据表;
当所述原始待拼接数据表和原始数据表的数据结构一致时,通过所述原始数据表对应的框架的内置函数在所述原始待拼接数据表中添加第三数据列,通过所述原始数据表对应的框架的内置函数在所述原始待拼接数据表中添加第四数据列;
根据所述第三数据列和第四数据列定义第二窗口规范,根据所述第二窗口规范通过所述原始数据表对应的框架的第二窗口函数在所述原始待拼接数据表中添加所述第二主键列,得到所述目标待拼接数据表。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述原始待拼接数据表和原始数据表的数据结构不一致,并且所述原始待拼接数据表的数据结构为基础数据结构时,在所述原始待拼接数据表中添加所述第二主键列,得到候选待拼接数据表;
获取所述候选待拼接数据表的数据;
根据所述候选待拼接数据表的数据创建所述目标待拼接数据表,所述目标待拼接数据表和所述原始数据表的数据结构一致。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述原始待拼接数据表和原始数据表的数据结构不一致,并且所述原始待拼接数据表的数据结构为基础数据结构和原始数据表的数据结构之外的其他数据结构时,通过所述原始数据表对应的框架的转换函数将所述原始待拼接数据表的数据结构转换为所述原始数据表的数据结构;
在转换后的原始待拼接数据表中添加所述第三数据列和第四数据列。


5.根据权利要求1所述的方法,其特征在于,所述根据所述第一数据列和第二数据列定义第一窗口规范,包括:
获取所述原始数据表的预设分区数;
将所述第一数据列作为排序规范列...

【专利技术属性】
技术研发人员:郭超
申请(专利权)人:深圳市金蝶天燕云计算股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1