用于匹配半结构化数据中的实体的深度神经网络制造技术

技术编号：32712491 阅读：13 留言：0更新日期：2022-03-20 08:09

在示例实施例中，可以使用深度神经网络来确定候选实体对之间的匹配、以及反映深度神经网络关于对应匹配的确定程度的置信度分数。深度神经网络还能够找出这些匹配，而无需如果手工完成机器学习模型的特征所需的领域知识，这是用于匹配多个表中的实体的现有技术机器学习模型的缺点。因此，深度神经网络对被设计用于执行相同任务的现有技术机器学习模型的运行有了改进。具体而言，深度神经网络仅从历史数据学习定义匹配的表格字段与模式之间的关系，从而使该方法独立于上下文通用并适用。从而使该方法独立于上下文通用并适用。从而使该方法独立于上下文通用并适用。

全部详细技术资料下载

【技术实现步骤摘要】
用于匹配半结构化数据中的实体的深度神经网络

[0001]该文件大体上涉及机器学习。更具体而言，该文件涉及一种用于匹配半结构化数据中的实体的深度神经网络。

技术介绍

[0002]数据库通常将数据存储在表中，其中每一行表示不同的实体。实体可以是数据集中的任何元素，包括例如用户、文档、组织、位置等等；然而，在许多类型的数据存储中，表中的每一行对应于不同的实体。如果表为例如文档表，则每一行表示不同的文档。可在数据存储中出现的一个问题是无法跨过多个表匹配实体。例如，可能难以确定一个表中的实体是否是另一表中所列出的同一实体，因为相应表中所存储的数据可能未被标准化且因此不同的表可能以两种不同的方式存储关于同一实体的信息。例如，旨在用于消费者的产品目录可包含关于产品的信息，该信息以与旨在用于组件供应商的产品目录中的同一信息不同的格式存储。在一些实例中，识别不同表中的实体之间的匹配以便协调这两种不同格式的信息可能是有利的。在其他实例中，这种匹配可以用于删除并非旨在被列出两次的重复实体以减小存储容量。

技术实现思路

[0003]根据示例实施例的系统，包括：至少一个硬件处理器；以及非暂时性计算机可读介质，存储指令，当由至少一个硬件处理器执行时，指令使至少一个硬件处理器执行操作，操作包括：获得第一表中的第一实体，第一实体包括多个字段的值；将多个字段中的一个或多个字段中的值标记化为一个或多个标记；将一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标，从而产生包括一个或多...

【技术保护点】

【技术特征摘要】
1.一种系统，包括：至少一个硬件处理器；以及非暂时性计算机可读介质，存储指令，当由所述至少一个硬件处理器执行时，所述指令使所述至少一个硬件处理器执行操作，所述操作包括：获得第一表中的第一实体，所述第一实体包括多个字段的值；将所述多个字段中的一个或多个字段中的值标记化为一个或多个标记；将所述一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标，从而产生包括所述一个或多个标记中的每一者的坐标的嵌入；将所述一个或多个标记以及所述第一实体中的所述多个字段中的所述一个或多个字段中的每一者的所述嵌入连接成第一矩阵；构造所述第一实体的起始字段序列，针对所述第一实体中的所述多个字段中的所述一个或多个字段中每一者的所述一个或多个标记中的每一者，所述起始字段序列包括与从中生成标记的所述值的字段相对应的标识；将所述起始字段序列中的每一值传递到所述嵌入机器学习模型中以生成所述起始字段序列中的每一值的一组坐标；将所述起始字段序列中的每一值的所述嵌入连接成第二矩阵；堆叠所述第一矩阵及所述第二矩阵以形成第三矩阵；以及将所述第三矩阵传递给可分解注意力神经网络以比较所述第一实体与由其自身的嵌入矩阵表示的第二实体。2.根据权利要求1所述的系统，其中所述操作还包括：获得第二表中的第二实体，所述第二实体包括多个字段的值；将所述第二实体中的所述多个字段中的一个或多个字段中的每一者中的值标记化为一个或多个标记；将所述一个或多个标记中的每一者传递给所述嵌入机器学习模型，从而产生包括所述第二实体的所述一个或多个标记中的每一者的一组坐标的嵌入；将所述一个或多个标记中的每一者以及所述第二实体中的所述多个字段中的所述一个或多个字段中的每一者的所述嵌入连接成第四矩阵；构造所述第二实体的起始字段序列，针对所述第二实体中的所述多个字段中的所述一个或多个字段中每一者的所述一个或多个标记中的每一者，所述起始字段序列包括与从中生成标记的所述值的字段相对应的标识；将所述第二实体的所述起始字段序列中的每一值传递到所述嵌入机器学习模型中以生成所述第二实体的所述起始字段序列中的每一值的一组坐标；将所述第二实体的所述起始字段序列中的每一值的所述嵌入连接成第五矩阵；以及堆叠所述第四矩阵及所述第五矩阵以形成第六矩阵，通过所述可分解注意力神经网络比较所述第六矩阵与所述第三矩阵。3.根据权利要求2所述的系统，其中所述操作还包括将所述可分解注意力神经网络的输出传递给分类器模块，所述分类器模块包括具有多类输出的密集神经网络。4.根据权利要求3所述的系统，其中所述多类输出包括匹配、部分匹配以及不匹配的单
独类别。5.根据权利要求1所述的系统，其中所述操作还包括将所述第一实体中的所述多个字段分类成三类字段：基于文本的字段、分类字段以及数值/日期字段，并且其中所述多个字段中的所述一个或多个字段是所述基于文本的字段。6.根据权利要求5所述的系统，其中所述操作还包括将所述分类字段的值传递给后面跟着第一前馈神经网络的第二嵌入机器学习模型。7.根据权利要求6所述的系统，其中所述操作还包括使所述数值/日期字段中的值标准化以及将标准化值传递给第二前馈神经网络。8.一种方法，包括：获得第一表中的第一实体，所述第一实体包括多个字段的值；将所述多个字段中的一个或多个字段中的值标记化为一个或多个标记；将所述一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标，从而产生包括所述一个或多个标记中的每一者的坐标的嵌入；将所述一个或多个标记以及所述第一实体中的所述多个字段中的所述一个或多个字段中的每一者的所述嵌入连接成第一矩阵；构造所述第一实体的起始字段序列，针对所述第一实体中的所述多个字段中的所述一个或多个字段中每一者的所述一个或多个标记中的每一者，所述起始字段序列包括与从中产生标记的所述值的字段相对应的标识；将所述起始字段序列中的每一值传递到所述嵌入机器学习模型中以生成所述起始字段序列中的每一值的一组坐标；将所述起始字段序列中的每一值的所述嵌入连接成第二矩阵；堆叠所述第一矩阵及所述第二矩阵以形成第三矩阵；以及将所述第三矩阵传递给可分解注意力神经网络以比较所述第一实体与由其自身的嵌入矩阵表示的第二实体。9.根据权利要求8所述的方法，还包括：获得第二表中的第二实体，所述第二实体包括多个字段的值；将所述第二实体中的所述多个字段中的一个或多个字段中的每一者中的值标记化为一个或多个标记；将所述一个或多个标记中的每一者传递给所述嵌入机器学习模型，从而产生包括所述第二实体的所述一个或多个标记中的每一者的一组坐标的嵌入；将所...

【专利技术属性】
技术研发人员：M弗兰克，HV阮，SK鲍尔，A斯特雷尔索夫，J曼卡德，C古德，K申克，PL詹西科夫，RK古普塔，
申请(专利权)人：SAP欧洲公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人