当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

语境化字符识别系统技术方案

技术编号:29157869 阅读:53 留言:0更新日期:2021-07-06 22:57
这里描述了用于提供语境化字符识别系统的系统、方法和各种实施例。实施例通过确定图像的多个预测单词来操作。识别准确性度量或多个预测单词中的每一个,并且识别具有低于阈值的准确性度量的可替换单词。识别与可替换单词相关联的多个候选单词,并且基于语境分析计算候选单词中的每一个的概率。选择候选单词中的具有最高概率的一个。输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。

【技术实现步骤摘要】
语境化字符识别系统
本公开涉及语境字符识别系统,更具体地,涉及用于提供语境化字符识别系统的系统、装置、设备、方法和/或计算机程序产品。
技术介绍
光学字符识别(OCR)是从图像识别或读取字符或文本的过程。OCR通过将图像中的各种形状和对象与图像的背景区分开来操作。使用视觉特征,OCR随后可以将区分出的形状和对象与一组已知字符比较,以识别可能出现在图像中的各种字符和单词(word)。然而,OCR被限制于使用视觉特征来进行其确定,并且因此有其局限性,因为有时严格使用视觉分析难以识别字符和单词。
技术实现思路
根据本公开的一方面,提供了一种用于提供语境化字符识别系统的方法,包括:确定图像的多个预测单词,其中所述多个预测单词是基于图像的光学分析生成的;为多个预测单词中的每一个识别准确性度量;基于可替换单词的准确性度量低于阈值,从多个可预测单词中识别可替换单词;识别与可替换单词相关联的多个候选单词;基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析,为多个候选单词中的每一个计算概率;选择多个候选单词中的具有最高概率的一个,其中选择的候选单词的概率超过准确性度量和阈值;以及输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。根据本公开的另一方面,提供了一种用于提供语境化字符识别系统的系统,包括:存储器;以及至少一个处理器,耦合到存储器并被配置为执行操作,所述操作包括:确定图像的多个预测单词,其中所述多个预测单词是基于图像的光学分析生成的;为多个预测单词中的每一个识别准确性度量;基于可替换单词的准确性度量低于阈值,从多个可预测单词中识别可替换单词;识别与可替换单词相关联的多个候选单词;基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析,为多个候选单词中的每一个计算概率;选择多个候选单词中的具有最高概率的一个,其中选择的候选单词的概率超过准确性度量和阈值;以及输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。根据本公开的又一方面,提供了一种非瞬时性计算机可读设备,具有存储在其上的指令,当由至少一个计算设备运行所述指令时,使得所述至少一个计算设备执行操作,所述操作包括:确定图像的多个预测单词,其中所述多个预测单词是基于图像的光学分析生成的;为多个预测单词中的每一个识别准确性度量;基于可替换单词的准确性度量低于阈值,从多个可预测单词中识别可替换单词;识别与可替换单词相关联的多个候选单词;基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析,为多个候选单词中的每一个计算概率;选择多个候选单词中的具有最高概率的一个,其中选择的候选单词的概率超过准确性度量和阈值;以及输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。附图说明附图被合并于此并形成说明书的一部分。图1是示出根据一些实施例的用于提供语境化(contextualized)字符识别系统(CRS)的示例功能的框图。图2A示出根据示例实施例的从中提取文本的示例图像204。图2B示出根据示例实施例的OCR和语境化字符识别处理的示例。图3A示出根据实施例的示例单词框。图3B示出根据示例实施例的对应于被识别的单词边界(bounding)或单词框的字符框的示例集合。图3C示出根据示例实施例的具有像素视图(view)的示例单词网格(grid)。图4是示出根据一些实施例的用于提供语境化字符识别系统的示例操作的流程图。图5是用于实施各种实施例的示例计算机系统。在附图中,类似的参考标号通常表示相同或相似的元素。此外,一般来说,参考标号的最左边的(多个)数字标识了第一次出现该参考标号的附图。具体实施方式这里提供用于提供语境化字符识别系统的系统、装置、设备、方法和/或计算机程序产品实施例和/或其组合和子组合。光学字符识别(OCR)是从图像中识别或读取字符或文本的过程。OCR通过将图像中的各种形状和对象与图像的背景区分开来操作。使用视觉特征,OCR随后可以将区分出的形状和对象与一组已知字符比较,以识别可能出现在图像中的各种字符和单词。然而,OCR被限制于使用视觉特征来进行其确定,并且因此有其局限性,因为有时严格使用视觉分析难以识别字符和单词。图1是示出根据一些实施例的用于提供语境化字符识别系统(CRS)102的示例功能的框图100。在实施例中,CRS102可以通过向图像104的识别出的视觉元素、字符或单词添加语境化处理来增强标准OCR。光学字符识别(OCR)是一个计算机化的过程,通过该过程,一个或多个计算设备使用图像中的视觉提示(cue)来识别可能出现在图像中的单词。然而,OCR遇到的问题之一是,单独基于计算机化视觉分析,并不是所有的文本都是容易地可读取或可识别的。因此,OCR易于输出错误的单词或字符,该单词或字符可能没有逻辑或语境(contextual)意义。CRS102可以通过添加、分层放置或实施语境化处理来识别图像104内的字符、文本、单词和/或短语来增强标准OCR处理。CRS102可以识别图像104的单词、字符、符号和/或对象。例如,用户可以将图像104提交给CRS102用于处理,并且可以接收最终文本107的输出,在最终文本107中来自图像104的跨一种或多种语言的一个或多个单词、短语、字符、符号、文本或其他对象被自动地识别(例如,在不介入用户干预的情况下)。在实施例中,CRS102可以使用OCR引擎105来识别预测文本107。例如,OCR引擎105可以包括一个或多个处理器,其被配置成执行图像104的标准OCR处理并输出预测文本107。在另一实施例中,CRS102可从第三方OCR引擎105接收图像104(或图像104的部分)和预测文本107,该第三方OCR引擎105未被集成为CRS102的一部分,但其如下更详细地描述的,提供预测文本107和/或图像104的边界框。预测文本107可以包括最初被预测(使用OCR或视觉处理)为被跨图像104的一个多个部分、段或区域显示的一个或多个字符或单词。预测文本107可以包括一个或多个预测单词108A、108B、108C(这里通常指代预测单词108)。预测单词108可以每个包括跨一种或多种语言的一个或多个字母数字文本符号和/或字符。示例预测单词108包括“一个”、“医生”、“3/4”、“品脱大小”、“100美元”和“真棒!”。预测单词108可被一起分组或组合成预测文本107,该预测文本107可包括短语、标题、句子、段落或一个或多个预测单词108的其他逻辑或语境分组。在实施例中,CRS102可以分别为预测单词108A、108B和108C中的每一个计算、生成或确定准确性度量110A、110B和110C。准确性110可以是关于OCR引擎指示正确的预测单词108的准确程度的指示或预测。该计算可以基于由语言模型116使用的语言统计。在实施例中,准确性可以对应于预测短语或文本107的剩余预测单词108的语境中的每个预测单词108本文档来自技高网...

【技术保护点】
1.一种用于提供语境化字符识别系统的方法,包括:/n确定图像的多个预测单词,其中所述多个预测单词是基于图像的光学分析生成的;/n为多个预测单词中的每一个识别准确性度量;/n基于可替换单词的准确性度量低于阈值,从多个可预测单词中识别可替换单词;/n识别与可替换单词相关联的多个候选单词;/n基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析,为多个候选单词中的每一个计算概率;/n选择多个候选单词中的具有最高概率的一个,其中选择的候选单词的概率超过准确性度量和阈值;以及/n输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。/n

【技术特征摘要】
20200106 US 16/734,8801.一种用于提供语境化字符识别系统的方法,包括:
确定图像的多个预测单词,其中所述多个预测单词是基于图像的光学分析生成的;
为多个预测单词中的每一个识别准确性度量;
基于可替换单词的准确性度量低于阈值,从多个可预测单词中识别可替换单词;
识别与可替换单词相关联的多个候选单词;
基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析,为多个候选单词中的每一个计算概率;
选择多个候选单词中的具有最高概率的一个,其中选择的候选单词的概率超过准确性度量和阈值;以及
输出包括替换可替换单词的具有最高概率的选择的候选单词的多个预测单词。


2.根据权利要求1所述的方法,还包括:
接收图像;
识别图像中的多个字符;以及
将多个字符组合成多个预测单词。


3.根据权利要求1所述的方法,其中基于语境分析计算准确性度量,在语境分析中,出现在多个预测单词中的选择的一个之前的一个或多个预测单词的短语与出现在多个预测单词中的选择的一个之后的一个或多个预测单词的短语进行比较。


4.根据权利要求1所述的方法,其中,所述识别多个候选单词包括:
确定可替换单词包括多个字符;
为多个字符中的至少一个识别替代字符;以及
将包括替代字符的可替换单词识别为是多个候选单词中的一个。


5.根据权利要求4所述的方法,其中所述识别替代字符基于多个字符中的至少一个的光学分析。


6.根据权利要求1所述的方法,其中所述识别多个候选单词包括:
使用具有多个阈值的非最大抑制来生成多个候选单词中的一个。


7.根据权利要求1所述的方法,其中所述识别多个候选单词包括:
跨用于可替换单词中的至少一个字符的多个像素,针对每一个像素识别字符预测,其中可替换单词包括多个字符;
确定跨多个像素存在至少两个不同的预测,包括第一预测和第二预测;以及
识别包括第一预测和多个字符的多个候选单词中的第一个。


8.根据权利要求7所述的方法,还包括:
识别包括第二预测和多个字符的多个候选单词中的第二个。


9.一种用于提供语境化字符识别系统的系统,包括:
存储器;以及
至少一个处理器,耦合到存储器并被配置为执行操作,所述操作包括:
确定图像的多个预测单词,其中所述多个预测单词是基于图像的光学分析生成的;
为多个预测单词中的每一个识别准确性度量;
基于可替换单词的准确性度量低于阈值,从多个可预测单词中识别可替换单词;
识别与可替换单词相关联的多个候选单词;
基于相对于多个预测单词中的一个或多个的每个候选单词的语境分析,为多个候选单词中的每一个计算概率;
选择多个候选单词中的具有最高概率的一个,其中选择的候选单词的概率超过准确性度量和阈值;以及
输出包括替换可替换单词的具有最高概率的选择的候...

【专利技术属性】
技术研发人员:RK古普塔J赫内AR卡蒂
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:德国;DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1