当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

用于文档处理的位置嵌入制造技术

技术编号:28538369 阅读:25 留言:0更新日期:2021-05-21 09:02
本文公开了使用位置嵌入来生成文档标签的系统、方法和计算机程序产品实施例。在实施例中,标签系统可以识别文档图像的标记,诸如词语。该标签系统可以将位置向量神经网络应用于该文档图像,以分析像素并确定对应于词语的位置嵌入向量。该标签系统然后可以将该位置嵌入向量与相应的词向量组合,以用作训练为生成文档标签的神经网络的输入。这种组合可以以串行化的方式将该位置信息嵌入相应的词语信息,以供文档标签神经网络处理。使用这种格式化,该标签系统可以以轻量且快速的方式生成文档标签,同时仍然保留词语之间的空间关系。

【技术实现步骤摘要】
用于文档处理的位置嵌入
本公开的实施例涉及用于文档处理的系统、方法以及非暂时性计算机可读设备。
技术介绍
光学字符识别(opticalcharacterrecognition,OCR)已经用于识别文档中的字符。此外,已经开发了机器学习算法,以基于应用的OCR技术来识别文档图像中的字符和词语。例如,可以从文档图像中提取字符、词语或符号。然而,这些技术可能不会保留与符号相关的位置信息。例如,这些技术可以不考虑文档符号的布局。这种位置信息的缺少可能给分析文档的内容带来困难。如果在文档处理期间不考虑该位置信息,即使包括文本和位置信息的文档数据文件也可能产生不准确和/或不正确的结果。
技术实现思路
本公开的至少一实施例提供一种计算机实现的方法。该方法可以包括:接收文档图像;识别所述文档图像的一个或多个标记(token);将第一神经网络应用于文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合;以及响应于应用第二神经网络,生成一个或多个文档标签。本公开的至少一实施例还提供一种系统。该系统可以包括存储器和至少一个处理器。所述至少一个处理器耦合到存储器并且可以被配置为:接收文档图像;识别文档图像的一个或多个标记;将第一神经网络应用于文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合;以及响应于应用第二神经网络,生成一个或多个文档标签。本公开的至少一实施例还提供一种非暂时性计算机可读设备。该非暂时性计算机可读设备具有存储在其上的指令,该指令当由至少一个计算设备执行时可以使得所述至少一个计算设备执行操作,该操作可以包括:接收文档图像;识别文档图像的一个或多个标记;将第一神经网络应用于文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;将第二神经网络应用于所述一个或多个标记与位置嵌入序列的相应位置嵌入的一个或多个组合;以及响应于应用第二神经网络,生成一个或多个文档标签。附图说明附图结合于此并构成说明书的部分。图1A描绘了根据一些实施例的文档处理环境的框图。图1B描绘了根据一些实施例的文档处理流程的框图。图2描绘了根据一些实施例的示例网络方程。图3描绘了示出根据一些实施例的用于生成文档标签的方法的流程图。图4描绘了根据一些实施例的示例串行化技术。图5描绘了有助于实现各种实施例的示例计算机系统。在附图中,相同的附图标记通常指示相同或相似的元件。此外,通常附图标记的(多个)最左边的位标识其中该附图标记首次出现的附图。具体实施方式本文提供的是用于使用位置嵌入生成文档标签的系统、装置、设备、方法和/或计算机程序产品实施例、和/或它们的组合和子组合。本文公开的实施例可以分析文档图像以识别文档图像的符号或标记(token)的位置参数序列。这些位置参数可以用于在标签生成期间保留文档图像中标记的布局信息,并且可以提供增加的准确度。例如,如果标签生成过程使用串行化的机器学习或人工智能格式,则位置参数可以与符号一起嵌入,以保留位置信息。使用这些嵌入,可以使用位置信息来生成标签,以在加速的学习过程的情况下实现更高的准确度。在实施例中,标签系统可以接收文档和/或文档图像,并使用位置嵌入来生成标签。标签可以从在处理文档时使用的文档和/或文档图像中识别特定的值和/或符号。例如,文档可以是发票,并且可以通过基于文档处理识别代表该发票总额的符号或标记来生成标签。标签还可以识别键值对、命名实体、和/或来自文档的其他语义信息。标签系统可以使用位置信息生成这些标签和/或识别特定的符号或标记,以提供增加的准确度。位置嵌入信息可以帮助文档分析。例如,一些信息可以产生基于词语定位的模式。为了示出示例实施例,文档可以是具有“Firstname”字段的发票。该字段的输入可以是“John”,但是可以以各种方式排列。例如,输入可以排列在字段标签下方、字段标签右侧或字段标签上方。这三种配置如下所示:(1)FirstnameJohn(2)Firstname:John(3)JohnFirstname分析几个文档以及这些输入值的空间位置可以帮助更准确地识别正确的值并对该正确的值加标签(labeling)。通过使用位置嵌入,诸如水平和/或垂直位置,机器学习模型可以更好地识别值以及分析文档。然而,一些机器学习模型的问题可以是串行化的标记的使用。例如,一些自然语言处理技术可以分析一维字符或词语序列的文档。这种类型的处理可能导致文档中词语或标记之间的二维信息和/或关系的丢失。以这种方式,本文描述的标签系统可以执行位置嵌入来保留位置信息。该位置嵌入可以保留与文档的词语或标记的位置相对应的二维坐标。在一些实施例中,该标签系统可以接收文档和/或文档图像作为数据文件。该标签系统可以将字符、词语和/或其他字符的分组识别为文档的标记。例如,该标签系统可以执行光学字符识别(OCR)过程来识别字符和/或词语。在一些实施例中,文档可以是包含格式化的文本的数据文件,诸如HTML、Word文本、纯文本、格式化的文本和/或其他文本数据文件。在这种情况下,该标签系统可以跳过OCR过程,并且直接从文档数据文件中识别文本和/或位置信息。例如,该标签系统可以使用文件阅读器或转换器。该标签系统还可以使用第一神经网络来识别对应于字符和/或词语的位置嵌入。第一神经网络可以识别位置嵌入序列。该序列可以与输入词向量的序列组合,并且应用于第二神经网络。第二神经网络可以基于词向量与位置嵌入向量的组合来生成标签。如下文将进一步解释的,第一神经网络和第二神经网络可以是组合的神经网络的子网络。类似地,第一神经网络和第二神经网络可以被联合训练或顺序训练。通过将位置嵌入与词语的向量值组合,该标签系统可以在生成标签时保留位置信息。当生成标签时,该标签系统可以利用第二神经网络中的位置信息来生成更准确的结果。即使当第二神经网络使用一维和/或顺序格式化时,这种配置也可以进一步保留位置信息以供使用。例如,这种配置可以从表中提取数据并保留表组织。以这种方式,文档的二维信息甚至可以在一维语言模型或神经网络中被保留和利用。这种配置也可以是更少计算机资源密集型的,并且可以在训练机器学习模型时更高效。这个过程可以加速机器学习过程,并且产生更高的准确度。此外,该神经网络配置可以使用更少的层,以允许更少的资源密集型处理。以这种方式,当分类文档的字符和/或词语时,该配置可以是轻量且快速的,同时仍然捕获每个字符或单词的位置嵌入。现在将参照相应的附图讨论这些特征的各种实施例。图1A描绘了根据一些实施例的文档处理环境100A的框图。文档处理环境100A可以包括标签系统110、下游处理系统130和文档120。文档120可以包括手写和/或打字文本。文档120可以是文档的图像和/或具有本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法,包括:/n接收文档图像;/n识别所述文档图像的一个或多个标记;/n将第一神经网络应用于所述文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;/n将第二神经网络应用于所述一个或多个标记与所述位置嵌入序列的相应位置嵌入的一个或多个组合;以及/n响应于应用所述第二神经网络,生成一个或多个文档标签。/n

【技术特征摘要】
20191120 US 16/689,4981.一种计算机实现的方法,包括:
接收文档图像;
识别所述文档图像的一个或多个标记;
将第一神经网络应用于所述文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;
将第二神经网络应用于所述一个或多个标记与所述位置嵌入序列的相应位置嵌入的一个或多个组合;以及
响应于应用所述第二神经网络,生成一个或多个文档标签。


2.根据权利要求1所述的计算机实现的方法,其中所述一个或多个标记是所述文档图像的词语。


3.根据权利要求1所述的计算机实现的方法,其中所述位置嵌入序列是对应于所述一个或多个标记的向量。


4.根据权利要求1所述的计算机实现的方法,其中应用所述第一神经网络还包括:
应用空间填充曲线来串行化位置向量,以识别所述位置嵌入序列。


5.根据权利要求1所述的计算机实现的方法,其中所述一个或多个组合是通过将位置嵌入附加到所述一个或多个标记中的相应标记来生成的。


6.根据权利要求1所述的计算机实现的方法,其中所述一个或多个组合以一维序列排列,以用于由所述第二神经网络进行分析。


7.根据权利要求1所述的计算机实现的方法,其中所述第一神经网络和所述第二神经网络是单个神经网络的子网络。


8.一种系统,包括:
存储器;和
至少一个处理器,耦合到所述存储器并被配置为:
接收文档图像;
识别所述文档图像的一个或多个标记;
将第一神经网络应用于所述文档图像,以识别对应于所述一个或多个标记的位置嵌入序列;
将第二神经网络应用于所述一个或多个标记与所述位置嵌入序列的相应位置嵌入的一个或多个组合;以及
响应于应用所述第二神经网络,生成一个或多个文档标签。


9.根据权利要求8所述的系统,其中所述一个或多个标记是所述文档图像的词语。


10.根据权利要求8所述的系统,其...

【专利技术属性】
技术研发人员:C雷斯威格SK鲍尔
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1