一种数据表联接方法、系统、终端及存储介质技术方案

技术编号:37292801 阅读:21 留言:0更新日期:2023-04-21 03:24
本发明专利技术提供一种数据表联接方法、系统、终端及存储介质,包括:通过分析表题要素,确定所有数据表与第一数据表的的关联度;根据关联度和数据量确定所有数据表的联接优先级;根据联接优先级确定第一数据表要联接的第二数据表;通过分析字段要素,确定第二数据表中以字段为单位的计算式模板;接收用户调用计算式模板并填入字段的操作,得到完整的自定义计算式;根据自定义计算式调整第二数据表的字段和第一数据表相同,将调整后的第二数据表的字段值合并到第一数据表形成联接后的第三数据表。本发明专利技术针对字段不统一的数据表,改善了手动调整数据表格式的问题,有利于管控数据表联接过程中的数据管理权限,提升数据联接的高效性和合理性。性。性。

【技术实现步骤摘要】
一种数据表联接方法、系统、终端及存储介质


[0001]本专利技术属于企业数据管理服务
,具体涉及一种数据表联接方法、系统、终端及存储介质。

技术介绍

[0002]企业统计报表是企业掌握级业务部门收集数据的重要来源之一,通过各级业务部门的具体数据汇总、分析的而成。企业统计报表是为企业经营决策管理提供统计信息,而针对不同层级的决策者所需的统计信息和报表格式也是不一样的。例如有的部门展示“月销售量”,而在整个企业中需要展示“季度销售量”,在企业进行汇总统计时,则需要手动添加新的字段“季度销售量”,将“月销售量”的字段值进行计算得到“季度销售量”的字段值。目前市面上出现了专门服务于企业的数据管理的系统,仍是延续企业常用的表格管理的形式。针对上述问题,若要各部门重新提供统一格式的统计报表,或者将各部门各式格式的统计报表进行手动汇总,均会增加了工作量,而且在此过程中会造成数据管理权限的乱用。因此需要一种根据字段的实际情况进行数据表联接的方法。

技术实现思路

[0003]针对现有技术的上述不足,本专利技术提供一种数据表联接方法、系统、终端及存储介质,以解决上述技术问题。
[0004]第一方面,本专利技术提供一种数据表联接方法,包括:通过分析表题要素,确定所有数据表与第一数据表的的关联度;根据关联度和数据量确定所有数据表的联接优先级;根据联接优先级确定第一数据表要联接的第二数据表;通过分析字段要素,确定第二数据表中以字段为单位的计算式模板;接收用户调用计算式模板并填入字段的操作,得到完整的自定义计算式;根据自定义计算式调整第二数据表的字段和第一数据表相同,将调整后的第二数据表的字段值合并到第一数据表形成联接后的第三数据表。
[0005]进一步地,所述通过分析表题要素,确定所有数据表与第一数据表的的关联度,包括:通过机器学习方式训练得到的神经网络模型作为要素识别模型,识别当前两个数据表的表题要素,所述表题要素包括一个核心要素和至少一个一般要素;划分各个表题要素的关联度分值占比,需要保证核心要素的关联度分值占比大于一般要素之和;通过某一项表题要素的余弦相似度和该表题要素的关联度分值占比确定该表题要素的关联度分值;将各个表题要素的关联度分值之和作为两个数据表的关联度。
[0006]进一步地,所述根据关联度和数据量确定所有数据表的联接优先级,包括:
查询所有数据表的数据量;确定用户选定的第一数据表,将与第一数据表的关联度在预设的关联度阈值范围内的数据表作为第一目标范围,在第一目标范围内确定数据量最小的数据表为第一目标数据表;所述预设的关联度阈值范围为,历史操作中用户手动关联的两个数据表之间的关联度的最大值和最小值组成范围;将与第一目标数据表的关联度在预设的关联度阈值范围内的数据表作为第二目标范围,在第二目标范围内确定数据量最小的数据表为第二目标数据表,直到得到所有数据表的联接顺序;在预设的关联度阈值范围内存在数据量最小值相等的至少两个数据表时,优先选择关联度高的数据表作为要联接的下一数据表;在关联度和数据量均相等时随机确定优先级。
[0007]进一步地,所述通过分析字段要素,确定第二数据表中以字段为单位的计算式模板,包括:识别第一数据表和第二数据表的行列分布结构,确定的计算式模板为透视表行列转换;分析第一数据表的第一字段名和第二数据表的第二字段名,筛选出具备语义关系的第一字段名和第二字段名,语义关系包括:等同关系、上位关系;确定的计算式模板为多字段求和函数和字段拆解函数;分析第一数据表的第一字段值和第二数据表的第二字段值,筛选出具有计算关系的第一字段名和第二字段名,确定的计算式模板为计算关系对应的计算函数;分析具备语义关系和计算关系的字段值的数据信息,确定的计算式模板为精确度统一和数据类型转换函数。
[0008]进一步地,在分析字段要素之前,还包括:遍历数据表的所有字段的位置、字段名和数据信息并添加到逻辑树的相应节点中;所述逻辑树以各个字段作为第一节点进行分支,第一节点被赋予该字段的位置和字段名;每个第一节点对应的字段下每个字段值作为第二节点;第二节点中被赋予该字段值内的数据信息。
[0009]进一步地,所述接收用户调用计算式模板并填入字段的操作,得到完整的自定义计算式,包括:开放第二数据表以字段为单位的计算式模板的权限;接收用户填入所述计算式模板目标字段的操作,形成能对字段进行操作的完整的自定义计算式;并抽取一组记录向用户显示该自定义计算式模拟执行的结果。
[0010]进一步地,所述根据自定义计算式调整第二数据表的字段和第一数据表相同,将调整后的第二数据表的字段值合并到第一数据表形成联接后的第三数据表,包括:根据自定义计算式,以字段为单位对第二数据表的字段值进行对应的函数操作;遍历第二数据表的逻辑树,判断第二数据表的第一节点和第一数据表的第一节点是否一致;
根据第二数据表的记录条数扩充第一数据表的记录条数,将第二数据表的字段值写入第一数据表的对应位置。
[0011]第二方面,本专利技术提供一种数据表联接系统,包括:联接排序单元,用于通过分析表题要素,确定所有数据表与第一数据表的的关联度;根据关联度和数据量确定所有数据表的联接优先级;根据联接优先级确定第一数据表要联接的第二数据表;计算式生成单元,用于通过分析字段要素,确定第二数据表中以字段为单位的计算式模板;接收用户调用计算式模板并填入字段的操作,得到完整的自定义计算式;联接执行单元,用于根据自定义计算式调整第二数据表的字段和第一数据表相同,将调整后的第二数据表的字段值合并到第一数据表形成联接后的第三数据表。
[0012]第三方面,提供一种终端,包括:处理器、存储器,其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
[0013]第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
[0014]本专利技术的有益效果在于:本专利技术提供的一种数据表联接方法、系统、终端及存储介质,针对字段不统一的数据表提供一种数据表联接方式;通过设定字段的计算式改善了手动调整数据表格式的问题,减轻了数据表联接的工作量,并且根据表格联接的实际情况提供计算式,有利于管控数据表联接过程中的数据管理权限。此外,根据关联度和数据量确定数据表联接优先级,有利于提升数据联接的高效性和合理性。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术一个实施例的方法的示意性流程图。
[0017]图2是本专利技术一个实施例的系统的示意性框图。
[0018]图3为本专利技术实施例提供的一种终端的结构示意图。
具体实施方式...

【技术保护点】

【技术特征摘要】
1.一种数据表联接方法,其特征在于,包括:通过分析表题要素,确定所有数据表与第一数据表的的关联度;根据关联度和数据量确定所有数据表的联接优先级;根据联接优先级确定第一数据表要联接的第二数据表;通过分析字段要素,确定第二数据表中以字段为单位的计算式模板;接收用户调用计算式模板并填入字段的操作,得到完整的自定义计算式;根据自定义计算式调整第二数据表的字段和第一数据表相同,将调整后的第二数据表的字段值合并到第一数据表形成联接后的第三数据表。2.根据权利要求1所述的数据表联接方法,其特征在于,所述通过分析表题要素,确定所有数据表与第一数据表的的关联度,包括:通过机器学习方式训练得到的神经网络模型作为要素识别模型,识别当前两个数据表的表题要素,所述表题要素包括一个核心要素和至少一个一般要素;划分各个表题要素的关联度分值占比,需要保证核心要素的关联度分值占比大于一般要素之和;通过某一项表题要素的余弦相似度和该表题要素的关联度分值占比确定该表题要素的关联度分值;将各个表题要素的关联度分值之和作为两个数据表的关联度。3.根据权利要求1所述的数据表联接方法,其特征在于,所述根据关联度和数据量确定所有数据表的联接优先级,包括:查询所有数据表的数据量;确定用户选定的第一数据表,将与第一数据表的关联度在预设的关联度阈值范围内的数据表作为第一目标范围,在第一目标范围内确定数据量最小的数据表为第一目标数据表;所述预设的关联度阈值范围为,历史操作中用户手动关联的两个数据表之间的关联度的最大值和最小值组成范围;将与第一目标数据表的关联度在预设的关联度阈值范围内的数据表作为第二目标范围,在第二目标范围内确定数据量最小的数据表为第二目标数据表,直到得到所有数据表的联接顺序;在预设的关联度阈值范围内存在数据量最小值相等的至少两个数据表时,优先选择关联度高的数据表作为要联接的下一数据表;在关联度和数据量均相等时随机确定优先级。4.根据权利要求1所述的数据表联接方法,其特征在于,所述通过分析字段要素,确定第二数据表中以字段为单位的计算式模板,包括:识别第一数据表和第二数据表的行列分布结构,确定的计算式模板为透视表行列转换;分析第一数据表的第一字段名和第二数据表的第二字段名,筛选出具备语义关系的第一字段名和第二字段名,语义关系包括:等同关系、上位关系;确定的计算式模板为多字段求和函数和字段拆解函数;分析第一数据表的第一字段值和第二数据表的第二字段值,筛选出具有计...

【专利技术属性】
技术研发人员:李春博高志张磊刘杰
申请(专利权)人:青岛庚泽信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1