使用端到端深度学习识别机打字符和手写字符制造技术

技术编号：25804040 阅读：31 留言：0更新日期：2020-09-29 18:38

本文公开了使用端到端深度学习的光学字符识别的系统、方法和计算机程序产品实施例。在实施例中，光学字符识别系统可以训练神经网络以标识像素图像的字符，向字符分配索引值，并且识别字符的不同格式，诸如区分手写字符和机打字符。所述神经网络还可以被训练为标识字符的组，并生成边界框以分组这些字符。所述光学字符识别系统然后可以基于像素数据分析文档以标识字符信息，并产生分割掩码，诸如类型网格分割掩码、和一个或多个边界框掩码。所述光学字符识别系统可以供应这些掩码作为输出，或者可以组合掩码以生成具有光学识别字符的接收的文档的版本。

全部详细技术资料下载

【技术实现步骤摘要】
使用端到端深度学习识别机打字符和手写字符相关申请的交叉引用本申请涉及于2018年9月6日提交的题为“OpticalCharacterRecognitionUsingEnd-to-EndDeepLearning”的美国专利申请No.16/123,177，其全部内容通过引用并入本文中。
技术介绍
图像向文本的转换的一种类型包含光学字符识别(OCR)。OCR使用诸如去歪斜(de-skewing)、去斑点(de-speckling)、二值化、行移除、和/或布局分析之类的步骤，然后进行字符识别或后处理。然而，使用多个步骤导致潜在的错误，诸如在中间步骤中的信息损失和失真。该信息损失或失真还可能特别发生在中间步骤中试图识别手写字符时。特别是当顺序地应用步骤时，这些OCR过程可能产生后来可能无法校正的错误预测。此外，OCR的顺序的性质导致使用相当大的计算成本的费时过程。附图说明附图并入于本文中并且形成说明书的部分。图1描绘了根据一些实施例的光学字符识别环境的框图。图2A描绘了根据一些实施例的示例文档的框图。图2B描绘了根据一些实施例的示例字符网格分割掩码的框图。图2C描绘了根据一些实施例的示例类型网格分割掩码的框图。图2D描绘了根据一些实施例的包含字符边界框的示例边界框掩码的框图。图2E描绘了根据一些实施例的包含单词边界框的示例边界框掩码的框图。图3描绘了图示根据一些实施例的识别文档的字符的方法的流程图。图4描绘了根据一些实施例的示例字符处理流程的框图。>图5描绘了可用于实现各种实施例的示例计算机系统。附图中，相同的附图标记指示相同或相似的元件。附加地，总体上，附图标记的最左侧(多个)数字标识该附图标记首次出现的附图。具体实施方式本文中提供了使用机器学习的光学字符识别的系统、设备、装置、方法和/或计算机程序产品实施例，和/或它们的组合和子组合。本文中公开的实施例可以处理和/或提取来自包含手写和/或机打字符的文档中的字符信息。在实施例中，光学字符识别(OCR)系统可以利用神经网络架构。该神经网络架构可以允许用单个模型和单个计算步骤将手写和/或机打文本的图像转换成字符。神经网络可以接收图像作为输入，并且可以输出图像中发现的字符的集合，字符在图像上的位置，和/或字符、单词或行的边界框。使用这些输出或这些输出的子集合可以允许OCR系统生成具有光学识别的文本的文档。OCR系统能够分析具有手写和/或机打文本的文档。OCR系统可以用比现有顺序方案更快的方式来识别文档中的字符以进行OCR处理。神经网络架构可以减少执行的步骤的数目以处理文档。另外，神经网络在处理期间可以提供对可能噪声或失真的稳健性。基于执行的训练，神经网络可以是灵活的并且适应于各种类型的数据、符号、语言和字符。训练可以允许神经网络区分手写文本和机打文本。因为神经网络可以在单个步骤中处理完整的文档，所以OCR系统可以合并围绕的字符、单词、段落的全局上下文、和/或文档的整体结构，以标识或表征特定字符。单个步骤配置可以允许文档处理更快，以及计算资源的成本降低。另外，通过移除多个步骤或多个状态配置，OCR系统可以避免在中间处理步骤期间可能发生的潜在的错误。该配置还避免在试图识别手写文本时的潜在错误。因为OCR系统使用来自神经网络的深度学习模型执行端到端处理，因而可以避免这些中间错误。现在将参考对应的附图讨论这些特征的各种实施例。图1描绘了根据一些实施例的光学字符识别(OCR)环境100的框图。OCR环境100可以包含光学字符识别(OCR)系统110和文档120。文档120可以包含手写和/或机打文本。OCR系统110可以从文档120识别文本和/或字符。OCR系统110可以接收文档120作为输入。OCR系统110可以产生文档120的版本作为具有光学识别的文本的输出。在实施例中，OCR系统110可以产生一个或多个分割掩码和/或边界框作为输出。OCR系统110的输出可以被计算机系统利用以执行其他文档处理。OCR系统110可以使用一个或多个处理器来实现和/或可以包含硬件和/或软件，其可以配置为识别文档120的字符。在实施例中，如参考图5进一步描述的，OCR系统110可以使用计算机系统500来实现。文档120可以是包含可以提取的文本信息的计算机文件、文档、图像、和/或其他数字文件或对象。文档120可以包含手写和/或机打文本。文档120的示例可以包含网页、印刷稿件、出版物、发票、说明书手册、幻灯片演示、手写笔记、和/或包含文本字符的其他图像，仅举一些示例。参考图2A描述文档120的实施例。机打文本可以指不是手写的文本。机打文本的示例包含但不限于，使用键盘键入的文本、从打字机生成的文本、印刷的文本、和/或从印刷机生成的文本或其他早期形式的印刷物。文档120中的文本信息可以包含组织的或未组织的字符。文档120可以包含具有诸如行的预定布置的字符、不遵循预定布置的字符、和/或与图形图像混合的字符。字符可以采取一个或多个字母表、字母、数字、符号和/或其他图像的形式。基于视觉图像和在对文档120进行处理之前可以发生的训练，OCR系统110可以被训练为识别字符。该训练可以包含对手写和/或机打文本的识别。“字符”可以是指文档120上的字母、数字、符号、单词，字母、数字和/或符号的结合或组合，符号标记，图像，和/或其他视觉指示符。OCR系统110可以将标识的字符转换成索引值。索引值可以例如对应于ASCII值或单词的词典。转换可以使用映射函数来分配索引值。OCR系统110可以使用索引值遮蔽字符。在实施例中，因为字符可以占据由[像素宽度×像素高度]度量的尺寸，遮蔽字符可以包含用索引值表示面积。OCR系统110可以将该过程应用于文档的每一个字符以生成分割掩码。在实施例中，文档120可以包含手写文本和机打文本。OCR系统110可以将手写字符和机打字符的两者中的标识的字符关联到相同的索引值。例如，如果文档120包含手写和机打两种形式下的字母“E”，则OCR系统110可以使用相同索引值以标识字母的每个实例。如此，OCR系统110可以识别字符的两种类型并且将它们映射到相同的索引值。当生成分割掩码时，OCR系统110可以应用下采样技术以降低分割掩码相对于文档120的图像尺寸的分辨率。如此，缩放可以是不同的。较低分辨率分割掩码可以允许在分析掩码时增加处理速度和/或可以降低掩码的储存大小。在实施例中，采样可以允许缩放在水平和垂直方向上的差异。取决于OCR系统110的训练，不同分辨率可以应用于掩码的不同方向。例如，在垂直尺度可能具有降低分辨率时，更加精细纹理的分辨率可以应用于水平尺度。在该示例中，下采样可以应用于垂直尺度而不应用于水平尺度。该配置可以应用于具有水平地延伸的文本或语句的文档。更高水平分辨率可以允许捕获更加精细的字符细节。然而，由于较小的分割掩码尺寸，对垂直尺度进行下采样允许提高处理的速度。为了执行字符识别处理，OCR系统110可以使用卷积神经网络(CNN)140本文档来自技高网...

【技术保护点】
1.一种计算机实现的方法，包括：/n接收文档图像；/n使用神经网络分析所述文档图像的像素，以标识所述文档图像的字符和所述字符的格式；/n使用所述神经网络生成第一分割掩码，其中索引值替换所述字符；以及/n使用所述神经网络生成第二分割掩码，以将所述文档图像的字符的第一子集合与所述文档图像的字符的第二子集合区分，其中所述字符的第一子集合的格式与所述字符的第二子集合的格式不同。/n

【技术特征摘要】
20190320 US 16/359,0121.一种计算机实现的方法，包括：
接收文档图像；
使用神经网络分析所述文档图像的像素，以标识所述文档图像的字符和所述字符的格式；
使用所述神经网络生成第一分割掩码，其中索引值替换所述字符；以及
使用所述神经网络生成第二分割掩码，以将所述文档图像的字符的第一子集合与所述文档图像的字符的第二子集合区分，其中所述字符的第一子集合的格式与所述字符的第二子集合的格式不同。

2.根据权利要求1所述的计算机实现的方法，其中所述字符的第一子集合的格式包含手写文本，并且所述字符的第二子集合的格式包含机打文本。

3.根据权利要求1所述的计算机实现的方法，还包括：
生成一个或多个边界框，所述一个或多个边界框指示所述文档图像中的字符的组；以及
将所述一个或多个边界框组合到边界框掩码中，其中所述一个或多个边界框位于与所述文档图像中的所述字符的组对应的位置。

4.根据权利要求3所述的计算机实现的方法，还包括：
在所述文档图像上覆盖所述第一分割掩码、所述第二分割掩码和所述边界框掩码。

5.根据权利要求1所述的计算机实现的方法，其中所述字符的第一子集合的格式包含第一语言，并且所述字符的第二子集合的格式包含第二语言。

6.根据权利要求1所述的计算机实现的方法，其中所述字符的第一子集合的格式包含与第一个体对应的手写体，并且所述字符的第二子集合的格式包含与第二个体对应的手写体。

7.根据权利要求1所述的计算机实现的方法，其中所述第二分割掩码包含所述字符的第一子集合的第一色彩和所述字符的第二子集合的第二色彩，所述第二色彩不同于所述第一色彩。

8.一种系统，包括：
存储器；和
至少一个处理器，所述至少一个处理器耦接到所述存储器并配置为：
接收文档图像；
使用神经网络分析所述文档图像的像素，以标识所述文档图像的字符和所述字符的格式；
使用所述神经网络生成第一分割掩码，其中索引值替换所述字符；以及
使用所述神经网络生成第二分割掩码，以将所述文档图像的字符的第一子集合与所述文档图像的字符的第二子集合区分，其中所述字符的第一子集合的格式与所述字符的第二子集合的格式不同。

9.根据权利要求8所述的系统，其中所述字符的第一子集合的格式包含手写文本，并且所述字符的第二子集合的格式包含机打文本。

10.根据权利要求8所述的系统，其中所述至少一个处理器还配置为：
生成一个或多个边界框，所述一个或多个边界框指示所述文档图像中的字符的组；以及
...

【专利技术属性】
技术研发人员：J霍尼，C赖斯威格，AR卡蒂，M斯皮纳西，
申请(专利权)人：SAP欧洲公司，
类型：发明
国别省市：德国;DE

全部详细技术资料下载我是这个专利的主人