本发明专利技术涉及从图像中提取相关信息的方法和系统及计算机程序产品。各种方法都使用基于SQL的数据提取来从图像中提取相关信息。这些是从NL生成SQL查询的基于规则的方法,如果要处理任何新的英语句子,则需要人工干预。对于非技术用户来说这变得更加困难。提供了用于使用对话界面和数据库查询从图像中提取相关信息的系统和方法。该系统消除了噪声影响,识别文档的类型,并检测图表的各种实体。此外,设计了一种模式,该模式让由深度视觉模型检测到的实体的抽象以及实体间的关系容易被理解。然后,通过在关系表的顶部编写SQL查询,可以从文档中提取相关信息和字段。添加了基于自然语言的界面,使得用自然语言指定查询的非技术用户可以轻松地获取信息。
Methods and systems for extracting relevant information from images and computer program products
【技术实现步骤摘要】
从图像中提取相关信息的方法和系统及计算机程序产品相关申请的交叉引用和优先权本专利申请要求2018年11月30日提交的印度专利申请201821045427的优先权。
本文的实施方式总体上涉及从图像中提取数据的领域。更具体地,但不是特别地,本专利技术提供了一种用于使用对话界面和数据库查询从文档图像中提取相关信息的端到端系统和方法。
技术介绍
近期在具有目前最先进的神经网络的计算机视觉领域中的进步促进了光学字符识别(OCR)的准确性。然而,仅仅提取字符/文本经常是不够的,因为文档也具有OCR未捕捉的视觉结构。从表格、图表、脚注、框、标题中提取信息和检索文档的对应结构化表示仍然是一项挑战,并在大量实际用例中得到应用。虽然由于深度学习的改进,OCR的准确性已显著提高,但仅仅这些还不足以有效地从扫描的文档中提取信息。大多数文档具有表格、文本框、块、图表和图形的形式的丰富的视觉结构。在图像中存在的不同实体之间的视觉关系对于在提取之前理解和推理存在的信息至关重要。此外,领域知识或业务规则的通常一体化经常可以提升提取性能并能够验证和纠正已提取的数据。几十年来,从图像中提取文本一直是一个研究的活跃领域。由于这些进步,用比较简单的文本布局和高质量的扫描来解释文档在现在是相当简单的了。然而,当处理遵循具有多样视觉布局的几个不同模板的文档时,检索语义准确的信息可能会是非常具有挑战性的。为解决这个问题,已经做了大量的工作。研究组已开发了一种信息提取系统,其中,将一文档实例与一组预先存储的定义文档类别的模型相匹配。将已提取的文档文本与预先编译的关键字列表及其拼写变体进行比较。将结果与词模型及其逻辑关系数据库中的每个文档相匹配。另一种方法需要用户建立文档的概念模型,然后将其用来匹配、解释和提取文档中的内容。这项工作更强调文档的分类和组织,而不是关键字段的提取。这些现有技术构建了基于属性关系图的文档的表示,以捕捉图像中的实体之间的关系,然而其系统依赖于来自用户的相当多的专业知识来创建合适的模板文档模型。用于信息提取的当前方法需要在像素坐标级别进行编程,并且对于新手用户的快速部署来说不够抽象。此外,大部分的现有方法使用基于手工创建的规则的方法从NL生成SQL查询。如果要处理任何新的英语句子,则需要手动干预,例如,索引新数据和更新字典、元数据等。
技术实现思路
以下给出了本公开的一些实施方式的简化概述,以便提供对实施方式的基本理解。该概述不是实施方式的广泛概述。不旨在识别实施方式的关键/决定性的元素或描绘实施方式的范围。其唯一目的是以简化的形式呈现一些实施方式,作为下面呈现的更详细描述的序言。鉴于前述内容,本文的实施方式提供了一种用于从图像中提取相关信息的系统。该系统包括输入模块、存储器和处理器。输入模块提供图像,作为输入图像。处理器进一步包括噪声去除模块、文档标识符、光学字符识别引擎、模式设计模块、存储模块、对话界面、转换模块和数据库查询模块。噪声去除模块对输入图像执行去噪方法以从输入图像中去除噪声。文档标识符识别文档的类型,其中,该类型是印刷文本或手写文本。OCR引擎根据所识别的文档的类型对图像执行光学字符识别(OCR),以检测一组文本实体。模式设计模块设计一模式来建立该组文本实体之间的关系。存储模块将检测到的该组文本实体和该模式存储在关系数据库中。对话界面通过用户提供自然语言查询以提取相关信息。转换模块将自然语言查询转换为SQL查询。数据库查询模块向关系数据库提供SQL查询,以从关系数据库中提取相关信息。在另一方面,本文的实施方式提供了一种用于从图像中提取相关信息的方法。最初,获得作为输入图像的图像。在下一步骤中,对输入图像执行去噪方法以从输入图像中去除噪声。进一步,运行文档标识符来识别文档的类型,其中,该类型是印刷文本或手写文本。在下一步骤中,根据所识别的文档的类型对图像执行光学字符识别(OCR),以检测一组文本实体。然后设计一模式来建立该组文本实体之间的关系。然后,将检测到的该组文本实体和该模式存储在关系数据库中。在下一步骤中,由使用对话界面的用户提供自然语言查询以提取相关信息。然后,自然语言查询被转换成SQL查询。并且最后,将SQL查询提供给关系数据库以从关系数据库中提取相关信息。本领域技术人员应该理解,本文的任何框图都表示体现本主题原理的说明性系统的概念图。类似地,将理解,任何流程图表、流程图、状态转换图、伪代码等表示可以基本上在计算机可读介质中表示并由计算装置或处理器执行的各种处理,无论是否明确示出这种计算装置或处理器。在又一实施方式中,提供了包括一条或多条指令的一种或多种非暂时性机器可读信息存储介质,该指令在被一个或多个硬件处理器执行时,使一个或多个硬件处理器执行用于设计一个或多个用于构建数字产品和数字服务的统一架构模型的方法,该方法包括处理器实现的步骤:获得作为输入图像的图像,对输入图像执行去噪方法以从输入图像中去除噪声,运行文档标识符以识别文档的类型,其中,该类型是印刷文本或手写文本,根据所识别的文档的类型对图像执行光学字符识别(OCR)以检测一组文本实体,设计一模式以建立该组文本实体之间的关系,将检测到的该组文本实体和该模式存储在关系数据库中,由用户使用对话界面提供自然语言查询以提取相关信息,并且将自然语言查询转换成SQL查询,以及将该SQL查询提供给关系数据库以从关系数据库中提取相关信息。应当理解,前面的一般描述和下面的详细描述仅仅是示例性和解释性的,而不是对所要求保护的本专利技术的限制。附图说明并入本公开并构成其一部分的附图示出了示例性实施方式,并且与说明书一起用于解释所公开的原理。图1示出了根据本公开的实施方式的用于使用对话界面和数据库查询从图像中提取相关信息的系统的框图;图2示出了根据本公开的实施方式的用于为查询编写规则的系统的工作流程;图3示出了根据本公开的实施方式的用于去噪图像的cGAN的架构;图4示出了根据本公开的实施方式的具有递归编码器解码器模型的卷积神经网络;图5A至图5B是示出根据本公开的实施方式的使用对话界面和数据库查询从图像中提取相关信息所涉及的步骤的流程图;图6示出了根据本公开的实施方式的深度阅读器模式的实例;以及图7示出了根据本公开的实施方式的用于信息提取的样本库文档的实例。具体实施方式参考附图描述了示例性实施方式。在图中,附图标记的最左边的数字识别了附图标记首次出现的图。在任何方便的位置,在所有附图中使用相同的附图标记来表示相同或相似的部件。虽然本文描述了所公开的原理的实例和特征,但是在不脱离所公开的实施方式的精神和范围的情况下,修改、变更和其他实现方式是可能的。意图是接下来的详细描述仅被认为是示例性的,而真正的范围和精神由所附权利要求来指示。现在参考附图,并且更具体地参考图1至图7,其中,贯穿附图,相似的参考字符始终表示对应的特征,示出了优选的实施方式,并且在接下来的示例性系统和/或方法的内容中描述了这些实施方式。本文档来自技高网...
【技术保护点】
1.一种用于从图像中提取相关信息的方法(200),所述方法包括处理器实现的步骤:/n获得作为输入图像的图像(202);/n对所述输入图像执行去噪方法以从所述输入图像中去除噪声(204);/n运行文档标识符以识别文档的类型,其中,所述类型是印刷文本或者手写文本(206);/n根据所识别的文档的类型对所述图像执行光学字符识别(OCR),以检测一组文本实体(208);/n设计一模式以在所述一组文本实体之间建立关系(210);/n将检测到的所述一组文本实体和所述模式存储在关系数据库中(212);/n使用对话界面,由用户提供自然语言查询,以提取相关信息(214);/n将所述自然语言查询转换成SQL查询(216);并且/n向所述关系数据库提供所述SQL查询,以从所述关系数据库中提取所述相关信息(218)。/n
【技术特征摘要】
20181130 IN 2018210454271.一种用于从图像中提取相关信息的方法(200),所述方法包括处理器实现的步骤:
获得作为输入图像的图像(202);
对所述输入图像执行去噪方法以从所述输入图像中去除噪声(204);
运行文档标识符以识别文档的类型,其中,所述类型是印刷文本或者手写文本(206);
根据所识别的文档的类型对所述图像执行光学字符识别(OCR),以检测一组文本实体(208);
设计一模式以在所述一组文本实体之间建立关系(210);
将检测到的所述一组文本实体和所述模式存储在关系数据库中(212);
使用对话界面,由用户提供自然语言查询,以提取相关信息(214);
将所述自然语言查询转换成SQL查询(216);并且
向所述关系数据库提供所述SQL查询,以从所述关系数据库中提取所述相关信息(218)。
2.根据权利要求1所述的方法,进一步包括在将检测到的所述一组文本实体和所述模式存储在所述关系数据库中之后,直接向所述关系数据库提供所述SQL查询的步骤。
3.根据权利要求1所述的方法,进一步包括使用递归编码器-解码器模型处理手写文本以用于将视觉特征映射到所述输入图像中存在的一组字符的步骤。
4.根据权利要求1所述的方法,进一步包括对自然语言查询及其意图进行分类的步骤。
5.根据权利要求1所述的方法,进一步包括存储用于提取所述相关信息的一组SQL查询的工作流的步骤。
6.根据权利要求1所述的方法,其中,通过利用生成对抗网络(GAN)来执行所述去噪方法。
7.根据权利要求1的方法,其中,所述一组文本实体与文本实体的空间坐标相关联,并且所述信息传达相邻文本实体的位置。
8.根据权利要求1所述的方法,其中,使用由卷积神经网络(CNN)组成的孪生网络来运行所述文档标识符。
9.根据权利要求1所述的方法,其中,所述一组文本实体是词、行、文本块、复选框、箭头、OMR圆、徽标、表格、图形以及文本框中的一项或多项。
10.根据权利要求1所述的方法,其中,在执行OCR之前,运行所述文档标识符以确定正确的模板。
11.根据权利要求1所述的方法,其中,所述输入图像中的噪声是由于相机抖动、聚焦不当、成像噪声、咖啡渍、褶皱、低...
【专利技术属性】
技术研发人员:洛夫克什·维格,高塔姆·什拉夫,阿林达姆·乔杜里,罗希特·拉胡尔,贡年·塞加尔,维什瓦纳特·多雷斯瓦米,莫妮卡·夏尔马,阿什维·斯里尼瓦桑,
申请(专利权)人:塔塔顾问服务有限公司,
类型:发明
国别省市:印度;IN
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。