【技术实现步骤摘要】
【国外来华专利技术】通过示例来学习ETL规则相关申请的交叉引用本申请要求于2018年4月16日提交的美国专利申请No.15/953,873的优先权,其公开内容通过引用并入本文。
本公开的实施例一般而言涉及通过示例来学习提取(extract)、变换(transform)和加载映射(loadmapping)。
技术介绍
计算设备和连接设备的激增产生了大量需要管理的数据。通常由人类(诸如数据科学家)执行的数据管理的一个方面是提取、变换和加载(“ETL”)或提取、加载和变换(“ELT”),两者将在整个本公开中可互换地使用。一般而言,ETL是将数据从源架构(sourceschema)移动到目标架构(targetschema)的较大数据迁移处理的一个步骤。这种迁移处理通常具有多个层,诸如表/列映射、提取和加载规则/映射(例如,联接条件(joincondition)、工作单元(unitofwork)确定等)、迁移后和/或迁移前变换,这只是仅举的几例。因此,虽然数据管理的其它方面已变得敏捷和高效,但在利用现代常规技术时ETL可能是繁琐的处理。
技术实现思路
本公开的实施例一般而言涉及通过示例来学习来提取、变换和加载映射的系统和方法,该系统和方法对相关技术进行了实质性的改进。在一些实施例中,可以从源架构和目标架构中提取多个特征,这些特征至少包括源架构和目标架构的多个表的列。示例ETL映射可以被提供给机器学习算法,其中示例ETL映射包括用于从源架构的一个或多个表中提取数据并将提取出的数据加载到目标架构的一个或多个 ...
【技术保护点】
1.一种通过示例来学习提取、变换和加载(“ETL”)映射的方法,所述方法包括:/n从源架构和目标架构中提取多个特征,所述特征至少包括所述源架构和所述目标架构的多个表的列;/n向机器学习算法提供示例ETL映射,其中所述示例ETL映射包括用于从所述源架构的一个或多个表提取数据并将提取出的数据加载到所述目标架构的一个或多个表中的定义;/n使用所述机器学习算法并基于所述源架构、目标架构和提取出的特征,预测一个或多个ETL规则,所述一个或多个ETL规则定义用于从所述源架构提取数据并将提取出的数据加载到所述目标架构中的逻辑;以及/n基于预测的ETL规则、所述源架构、所述目标架构和提取出的特征生成附加ETL映射,所述附加ETL映射提供用于从所述源架构的一个或多个表提取数据并将提取出的数据加载到所述目标架构的一个或多个表中的附加定义。/n
【技术特征摘要】
【国外来华专利技术】20180416 US 15/953,8731.一种通过示例来学习提取、变换和加载(“ETL”)映射的方法,所述方法包括:
从源架构和目标架构中提取多个特征,所述特征至少包括所述源架构和所述目标架构的多个表的列;
向机器学习算法提供示例ETL映射,其中所述示例ETL映射包括用于从所述源架构的一个或多个表提取数据并将提取出的数据加载到所述目标架构的一个或多个表中的定义;
使用所述机器学习算法并基于所述源架构、目标架构和提取出的特征,预测一个或多个ETL规则,所述一个或多个ETL规则定义用于从所述源架构提取数据并将提取出的数据加载到所述目标架构中的逻辑;以及
基于预测的ETL规则、所述源架构、所述目标架构和提取出的特征生成附加ETL映射,所述附加ETL映射提供用于从所述源架构的一个或多个表提取数据并将提取出的数据加载到所述目标架构的一个或多个表中的附加定义。
2.如权利要求1所述的方法,其中,所述示例ETL映射和附加ETL映射包括定义源表的一个或多个源列与目标表的目标列之间的关系的映射表达式。
3.如权利要求1所述的方法,其中,所述示例ETL映射包括实现列名后缀或列名前缀中的至少一者的映射表达式。
4.如权利要求1所述的方法,其中,所述示例ETL映射包括映射表达式,所述映射表达式实现所述映射表达式的应用于源列的一个或多个函数。
5.如权利要求4所述的方法,其中
所述示例ETL映射包括实现第一类型的函数的映射表达式,所述第一类型的函数应用于所述源架构的列以加载所述目标架构的第一列,以及
所述附加ETL映射包括实现所述第一类型的函数的映射表达式,所述第一类型的函数应用于所述源架构的所述列以加载所述目标架构的第二列。
6.如权利要求1所述的方法,其中,所述预测的ETL规则定义由所述示例ETL映射表示的逻辑。
7.如权利要求6所述的方法,其中,
所述示例ETL映射表示所述源架构与所述目标架构的第一列集合之间的关系,并且
所述预测的ETL规则定义所述源架构与所述目标架构的第二列集合之间的关系的逻辑,并且所述第二列集合与所述第一列集合不同。
8.如权利要求7所述的方法,其中,所述附加ETL映射包括基于所述预测的ETL规则的用于所述目标架构的所述第二列集合的映射表达式。
9.如权利要求1所述的方法,其中,所述多个特征包括用于所述源架构和所述目标架构的表的外键。
10.如权利要求1所述的方法,其中,所述多个特征包括用于所述源架构的列的元数据,所述元数据指示所述源架构的列之间的关系。
11.一种其上存储有指令的非暂态计算机可读介质,所述指令在由处理器执行时使所述处理器通过示例来学习提取、变换和加载(“ETL”)映射,所述学习包括:
从源架构和目标架构中提取多个特征,所述特征至少包括所述源架构和所述目标架构的多个表的列;
向机器学习算法提供示例ETL映射,其中所述示例ETL映射包括用于从所述源架构的一个或多个表提取数据并将提取出的数据加载到所述目标架构的一个或多个表中的定义;
使用所述机器学习算法并基于所述源架构、目标架构和提取出...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。