【技术实现步骤摘要】
【国外来华专利技术】用于执行设备上图像到文本转换的方法和系统
[0001]本公开涉及执行图像到文本转换的领域。更具体地,本公开涉及以改进的精确度执行设备上图像到文本的转换。
技术介绍
[0002]光学字符识别(OCR)是图像到必须被用于诸如编辑或搜索的数据处理的机器可读形式/文本的电子或机械转换。图像可以包括打字文本、手写文本或打印文本中的至少一个。然而,现有的OCR解决方案无法理解用户编辑的文本,例如高亮文本、加删除线、插入等。因此,导致像视觉问题回答(VQA)那样的下游任务中的错误。此外,现有的OCR解决方案可能在转换图像的复杂文本时产生错误,即使该文本存在于图像的其它清晰区域中的其它地方。此外,在许多自然语言处理(NLP)和视觉任务中,选择来自图像语言是一个短板,因为即使图像采用不同的语言,也可能将默认语言认作设备区域表示。
[0003]一些现有的OCR解决方案可以包括用于执行图像到文本转换的机器学习(ML)工具包。然而,ML工具包支持拉丁语/字母系统作为默认,并且不支持其他字母系统。
[0004]一些现有的OCR解决方案 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于将图像转换为文本的方法,所述方法包括:由电子设备从至少一个图像中识别至少一个块,所述块表示要被转换成文本的内容;由所述电子设备识别与要被转换成文本的所述内容相关的至少一个标记,所述至少一个标记指示至少一个手写文本、至少一个词汇和相关联的方向属性、至少一个非文本注释、或至少一个用户编辑的文本片段中的至少一个;由所述电子设备基于所识别的至少一个标记对所述至少一个图像的所述至少一个块执行光学字符识别OCR,以创建第一组转换后的文本;以及由所述电子设备通过使用第一神经网络将所识别的至少一个标记与所述第一组转换后的文本相关联来生成文本转换后的输出。2.根据权利要求1所述的方法,其中,所述至少一个图像包括至少一个相机拍摄的图像、至少一个屏幕截图、至少一个计算机生成的图像、或至少一个跨社交网络站点共享的图像中的至少一个。3.根据权利要求1所述的方法,其中,所述至少一个标记是所述至少一个手写文本,以及其中,由所述电子设备识别所述至少一个标记包括:分析编辑符号、文本/字符映射、连接/关联映射、注释/手写映射、或字母系统映射中的至少一个,以识别要被转换成文本的所述内容中的所述至少一个手写文本或至少一个打印文本。4.根据权利要求3所述的方法,其中,所述编辑符号包括插入标记、删除线、高亮、下划线或引用中的至少一个,其中,所述文本/字符映射指示文本像素或非文本的概率,其中,所述连接/关联映射指示像素与单词的字符有关的概率,其中,所述注释/手写映射指示所述文本像素是否被手写的概率,以及其中,所述字母系统映射指示所述文本像素是否与特定语言相关联的概率。5.根据权利要求1所述的方法,其中,所述至少一个标记是所述至少一个非文本注释,以及其中,由所述电子设备识别所述至少一个标记包括:训练第二神经网络,以将所述至少一个图像划分为前景非文本注注释映射和背景图像;对所述前景非文本注释映射进行阈值处理;以及对阈值处理后的前景非文本注释映射应用连通区域分析,以识别所述至少一个非文本注释、以及包括所述要被转换成文本的所述内容的所述至少一个块中的相关联的位置。6.根据权利要求1所述的方法,其中,所述至少一个标记是所述至少一个用户编辑的文本片段;以及其中,由所述电子设备识别所述至少一个标记包括:分析编辑符号,以识别包括要被转换成文本的所述内容的所述至少一个块中的所述至少一个用户编辑的文本片段。7.根据权利要求6所述的方法,还包括:从所述至少一个块裁剪所识别的至少一个非文本注释;以及
使用第三神经网络处理所裁剪的至少一个非文本注释,以确定所识别的至少一个非文本注释的类别。8.根据权利要求1所述的方法,其中,由所述电子设备对所述至少一个图像的所述至少一个块执行所述OCR,以创建所述第一组转换后的文本包括:分析所述至少一个图像的所述至少一个块中的至少一个打印文本;以及通过相对于所述至少一个打印文本排列所识别的至少一个标记来创建所述第一组转换后的文本。9.根据权利要求8所述的方法,还包括:由所述电...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。