当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

用于匹配半结构化数据中的实体的深度神经网络制造技术

技术编号:32712491 阅读:13 留言:0更新日期:2022-03-20 08:09
在示例实施例中,可以使用深度神经网络来确定候选实体对之间的匹配、以及反映深度神经网络关于对应匹配的确定程度的置信度分数。深度神经网络还能够找出这些匹配,而无需如果手工完成机器学习模型的特征所需的领域知识,这是用于匹配多个表中的实体的现有技术机器学习模型的缺点。因此,深度神经网络对被设计用于执行相同任务的现有技术机器学习模型的运行有了改进。具体而言,深度神经网络仅从历史数据学习定义匹配的表格字段与模式之间的关系,从而使该方法独立于上下文通用并适用。从而使该方法独立于上下文通用并适用。从而使该方法独立于上下文通用并适用。

【技术实现步骤摘要】
用于匹配半结构化数据中的实体的深度神经网络


[0001]该文件大体上涉及机器学习。更具体而言,该文件涉及一种用于匹配半结构化数据中的实体的深度神经网络。

技术介绍

[0002]数据库通常将数据存储在表中,其中每一行表示不同的实体。实体可以是数据集中的任何元素,包括例如用户、文档、组织、位置等等;然而,在许多类型的数据存储中,表中的每一行对应于不同的实体。如果表为例如文档表,则每一行表示不同的文档。可在数据存储中出现的一个问题是无法跨过多个表匹配实体。例如,可能难以确定一个表中的实体是否是另一表中所列出的同一实体,因为相应表中所存储的数据可能未被标准化且因此不同的表可能以两种不同的方式存储关于同一实体的信息。例如,旨在用于消费者的产品目录可包含关于产品的信息,该信息以与旨在用于组件供应商的产品目录中的同一信息不同的格式存储。在一些实例中,识别不同表中的实体之间的匹配以便协调这两种不同格式的信息可能是有利的。在其他实例中,这种匹配可以用于删除并非旨在被列出两次的重复实体以减小存储容量。

技术实现思路

[0003]根据示例实施例的系统,包括:至少一个硬件处理器;以及非暂时性计算机可读介质,存储指令,当由至少一个硬件处理器执行时,指令使至少一个硬件处理器执行操作,操作包括:获得第一表中的第一实体,第一实体包括多个字段的值;将多个字段中的一个或多个字段中的值标记化为一个或多个标记;将一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标,从而产生包括一个或多个标记中的每一者的坐标的嵌入;将一个或多个标记以及第一实体中的多个字段中的一个或多个字段中的每一者的嵌入连接成第一矩阵;构造第一实体的起始字段序列,针对第一实体中的多个字段中的一个或多个字段中每一者的一个或多个标记中的每一者,起始字段序列包括与从中生成标记的值的字段相对应的标识;将起始字段序列中的每一值传递到嵌入机器学习模型中以生成起始字段序列中的每一值的一组坐标;将起始字段序列中的每一值的嵌入连接成第二矩阵;堆叠第一矩阵及第二矩阵以形成第三矩阵;以及将第三矩阵传递给可分解注意力神经网络以比较第一实体与由其自身的嵌入矩阵表示的第二实体。
[0004]根据示例实施例的方法,包括:获得第一表中的第一实体,第一实体包括多个字段的值;将多个字段中的一个或多个字段中的值标记化为一个或多个标记;将一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标,从而产生包括一个或多个标记中的每一者的坐标的嵌入;将一个或多个标记以及第一实体中的多个字段中的一个或多个字段中的每一者的嵌入连接成第一矩阵;构造第一实体的起始字段序列,针对第一实体中的多个字段中的一个或多个字段中
每一者的一个或多个标记中的每一者,起始字段序列包括与从中产生标记的值的字段相对应的标识;将起始字段序列中的每一值传递到嵌入机器学习模型中以生成起始字段序列中的每一值的一组坐标;将起始字段序列中的每一值的嵌入连接成第二矩阵;堆叠第一矩阵及第二矩阵以形成第三矩阵;以及将第三矩阵传递给可分解注意力神经网络以比较第一实体与由其自身的嵌入矩阵表示的第二实体。
[0005]根据示例实施例的非暂时性机器可读介质,其存储指令,当由一个或多个处理器执行时,指令使一个或多个处理器执行操作,操作包括:获得第一表中的第一实体,第一实体包括多个字段的值;将多个字段中的一个或多个字段中的值标记化为一个或多个标记;将一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标,从而产生包括一个或多个标记中的每一者的坐标的嵌入;将一个或多个标记以及第一实体中的多个字段中的一个或多个字段中的每一者的嵌入连接成第一矩阵;构造第一实体的起始字段序列,针对第一实体中的多个字段中的一个或多个字段中每一者的一个或多个标记中的每一者,起始字段序列包括与从中生成标记的值的字段相对应的标识;将起始字段序列中的每一值传递到嵌入机器学习模型中以生成起始字段序列中的每一值的一组坐标;将起始字段序列中的每一值的嵌入连接成第二矩阵;堆叠第一矩阵及第二矩阵以形成第三矩阵;以及将第三矩阵传递给可分解注意力神经网络以比较第一实体与由其自身的嵌入矩阵表示的第二实体。
附图说明
[0006]在附图的图示中通过示例而非限制的方式示出本公开,其中相同的标记指示类似的元素。
[0007]图1是示出了根据示例实施例的用于使用机器学习来匹配表中的实体的系统的框图。
[0008]图2是示出了根据示例实施例的序列处理操作的示例的图。
[0009]图3是示出了根据示例实施例的使用机器学习模型来匹配表中的实体的方法的流程图。
[0010]图4是示出了软件架构的框图,该软件架构可以安装在上述装置中的任一个或多个上。
[0011]图5示出了根据示例实施例的以计算机系统形式的机器的图形表示,在该机器内可以执行一组指令以使机器执行本文所述方法中的任一种或多种。
具体实施方式
[0012]以下说明论述了例示性系统、方法、技术、指令序列以及计算机程序产品。在以下说明中,为了解释,列出了大量具体细节以便提供对本专利技术主题的各种示例实施例的理解。然而,对于本领域的技术人员显而易见的是,可以在没有这些具体细节的情况下实践本专利技术主题的各种示例实施例。
[0013]在示例实施例中,可以使用深度神经网络来确定候选实体对之间的匹配、以及反映深度神经网络对对应匹配的确定程度的置信度分数。深度神经网络还能够找出这些匹配,而无需如果手工完成机器学习模型的特征所需的领域知识,这是用于匹配多个表中的
实体的现有技术机器学习模型的缺点。实际上,在一些示例中,对于用户来说可能无法定义通用的一组工程化特征(诸如术语的语义以及确切的用法可能在各国家之间以及在各组织之间不同),从而使现有技术不可用。因此,深度神经网络对被设计用于执行相同任务的现有技术机器学习模型的运行进行了改进。具体而言,深度神经网络仅从历史数据学习定义匹配的表格字段与模式之间的关系,从而使该方法独立于上下文通用并适用。
[0014]表本身可被视为半结构化的。表中的一些字段可包含结构化数据(即,它们具有明确的类型,诸如日期/数值(诸如数额、体积以及数量)、或分类值(诸如国家或货币代码))。表中的其他字段是未结构化的文本型字段,诸如项目说明、参考编号、银行对账单备忘录说明、公司名称等等。尽管对于这些文本字段中的一些,可能存在格式化惯例,但是字段中的数据通常由用户输入并且因此内容可基本上不同。例如,银行转账付款备忘录字段可以或可以不包含发票号码,参考编号可以或可以不具有前导零,公司名称可以或可以不包含公司的城市等等。这些未结构化字段常常携带用于找出匹配实体所需的大多数信息。
[0015]一种解决方案是使用自动化的基本形式来协调来自不同表的实体,诸如“如果数额在实体之间匹配并且发票号码包含在银行付款备忘录字段中,则匹配。”这种基于规则的自本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:至少一个硬件处理器;以及非暂时性计算机可读介质,存储指令,当由所述至少一个硬件处理器执行时,所述指令使所述至少一个硬件处理器执行操作,所述操作包括:获得第一表中的第一实体,所述第一实体包括多个字段的值;将所述多个字段中的一个或多个字段中的值标记化为一个或多个标记;将所述一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标,从而产生包括所述一个或多个标记中的每一者的坐标的嵌入;将所述一个或多个标记以及所述第一实体中的所述多个字段中的所述一个或多个字段中的每一者的所述嵌入连接成第一矩阵;构造所述第一实体的起始字段序列,针对所述第一实体中的所述多个字段中的所述一个或多个字段中每一者的所述一个或多个标记中的每一者,所述起始字段序列包括与从中生成标记的所述值的字段相对应的标识;将所述起始字段序列中的每一值传递到所述嵌入机器学习模型中以生成所述起始字段序列中的每一值的一组坐标;将所述起始字段序列中的每一值的所述嵌入连接成第二矩阵;堆叠所述第一矩阵及所述第二矩阵以形成第三矩阵;以及将所述第三矩阵传递给可分解注意力神经网络以比较所述第一实体与由其自身的嵌入矩阵表示的第二实体。2.根据权利要求1所述的系统,其中所述操作还包括:获得第二表中的第二实体,所述第二实体包括多个字段的值;将所述第二实体中的所述多个字段中的一个或多个字段中的每一者中的值标记化为一个或多个标记;将所述一个或多个标记中的每一者传递给所述嵌入机器学习模型,从而产生包括所述第二实体的所述一个或多个标记中的每一者的一组坐标的嵌入;将所述一个或多个标记中的每一者以及所述第二实体中的所述多个字段中的所述一个或多个字段中的每一者的所述嵌入连接成第四矩阵;构造所述第二实体的起始字段序列,针对所述第二实体中的所述多个字段中的所述一个或多个字段中每一者的所述一个或多个标记中的每一者,所述起始字段序列包括与从中生成标记的所述值的字段相对应的标识;将所述第二实体的所述起始字段序列中的每一值传递到所述嵌入机器学习模型中以生成所述第二实体的所述起始字段序列中的每一值的一组坐标;将所述第二实体的所述起始字段序列中的每一值的所述嵌入连接成第五矩阵;以及堆叠所述第四矩阵及所述第五矩阵以形成第六矩阵,通过所述可分解注意力神经网络比较所述第六矩阵与所述第三矩阵。3.根据权利要求2所述的系统,其中所述操作还包括将所述可分解注意力神经网络的输出传递给分类器模块,所述分类器模块包括具有多类输出的密集神经网络。4.根据权利要求3所述的系统,其中所述多类输出包括匹配、部分匹配以及不匹配的单
独类别。5.根据权利要求1所述的系统,其中所述操作还包括将所述第一实体中的所述多个字段分类成三类字段:基于文本的字段、分类字段以及数值/日期字段,并且其中所述多个字段中的所述一个或多个字段是所述基于文本的字段。6.根据权利要求5所述的系统,其中所述操作还包括将所述分类字段的值传递给后面跟着第一前馈神经网络的第二嵌入机器学习模型。7.根据权利要求6所述的系统,其中所述操作还包括使所述数值/日期字段中的值标准化以及将标准化值传递给第二前馈神经网络。8.一种方法,包括:获得第一表中的第一实体,所述第一实体包括多个字段的值;将所述多个字段中的一个或多个字段中的值标记化为一个或多个标记;将所述一个或多个标记中的每一者传递给通过第一机器学习算法训练的嵌入机器学习模型以生成用于输入的n维空间中的一组坐标,从而产生包括所述一个或多个标记中的每一者的坐标的嵌入;将所述一个或多个标记以及所述第一实体中的所述多个字段中的所述一个或多个字段中的每一者的所述嵌入连接成第一矩阵;构造所述第一实体的起始字段序列,针对所述第一实体中的所述多个字段中的所述一个或多个字段中每一者的所述一个或多个标记中的每一者,所述起始字段序列包括与从中产生标记的所述值的字段相对应的标识;将所述起始字段序列中的每一值传递到所述嵌入机器学习模型中以生成所述起始字段序列中的每一值的一组坐标;将所述起始字段序列中的每一值的所述嵌入连接成第二矩阵;堆叠所述第一矩阵及所述第二矩阵以形成第三矩阵;以及将所述第三矩阵传递给可分解注意力神经网络以比较所述第一实体与由其自身的嵌入矩阵表示的第二实体。9.根据权利要求8所述的方法,还包括:获得第二表中的第二实体,所述第二实体包括多个字段的值;将所述第二实体中的所述多个字段中的一个或多个字段中的每一者中的值标记化为一个或多个标记;将所述一个或多个标记中的每一者传递给所述嵌入机器学习模型,从而产生包括所述第二实体的所述一个或多个标记中的每一者的一组坐标的嵌入;将所...

【专利技术属性】
技术研发人员:M弗兰克HV阮SK鲍尔A斯特雷尔索夫J曼卡德C古德K申克PL詹西科夫RK古普塔
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1