文本行检测制造技术

技术编号:34779986 阅读:9 留言:0更新日期:2022-09-03 19:34
本公开的实现提供了用于文本行检测的解决方案。在该解决方案中,从图像中确定包括至少第一文本元素的第一部分的第一文本区域和包括至少第二文本元素的第二部分的第二文本区域。从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。第一特征表示和第二特征表示包括图像的图像特征表示或图像的语义特征表示中的至少一项。然后可以至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系。链接关系可以指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。以这种方式,通过检测文本区域并且基于其特征表示确定其链接关系,可以提高检测各种图像中的文本行的准确性和效率。种图像中的文本行的准确性和效率。种图像中的文本行的准确性和效率。

【技术实现步骤摘要】
【国外来华专利技术】文本行检测

技术介绍

[0001]检测和识别图像中的文本行的技术正在广泛应用于诸如文本识别、文本翻译和图像标记等很多真实世界的应用中。图像中的文本行是指空间相关或语义相关的字符集和/或符号。例如,用户可以使用他/她的智能电话捕获带有文本的图像,并且可能期望图像中的文本行被识别。与捕获良好的文档图像(诸如,文档的扫描版本)中的文本行检测相比,捕获自然场景的图像中的文本行检测是更具挑战性的工作,因为图像中文本外观和周围背景两者的巨大多样性。例如,自然场景图像中的文本行可能处于任何定向,并且可能在字体、大小、颜色等方面发生巨大变化。因此,需要提高图像中文本行检测的准确性和效率。

技术实现思路

[0002]根据本文中描述的主题的实现,提供了一种用于文本行检测的解决方案。在该解决方案中,从图像中确定包括至少第一文本元素的第一部分的第一文本区域和包括至少第二文本元素的第二部分的第二文本区域。从第一文本区域中提取第一特征表示并且从第二文本区域中提取第二特征表示。第一特征表示和第二特征表示包括图像中包含的文本内容的图像特征表示或语义特征表示中的至少一项。然后可以至少部分基于第一特征表示和第二特征表示来确定第一文本区域与第二文本区域之间的链接关系。链接关系可以指示第一文本元素和第二文本元素的第一部分和第二部分是否位于同一文本行中。以这种方式,通过检测文本区域并且基于其特征表示来确定其链接关系,可以提高检测各种图像中文本行的准确性和效率。
[0003]提供本“
技术实现思路
”是为了以简化的形式介绍概念的选择,这些概念将在下面的详细描述中进一步描述。本“
技术实现思路
”并非旨在确定所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
[0004]图1示出了可以在其中实现本文中描述的主题的各种实现的计算设备的框图;
[0005]图2示出了根据本文中描述的主题的实现的用于文本行检测的过程的流程图;
[0006]图3示出了根据本文中描述的主题的实现的文本区域检测模块的示例结构;
[0007]图4示出了根据本文中描述的主题的实现的链接关系确定模块的示例结构;
[0008]图5示出了根据本文中描述的主题的实现的文本行区域确定的示例结构;以及
[0009]图6示出了根据本文中描述的主题的实现的用于提供文本行区域的过程的流程图。
[0010]在整个附图中,相同或相似的附图标记指代相同或相似的元素。
具体实施方式
[0011]现在将参考多个示例实现来讨论本文中描述的主题。应当理解,讨论这些实现仅仅是为了使得本领域的技术人员能够更好地理解并且因此实现本文中描述的主题,而不是
暗示对主题范围的任何限制。
[0012]如本文中使用的,术语“包括”及其变型应当被理解为表示“包括但不限于”的开放术语。术语“基于”应当理解为“至少部分基于”。术语“一个实现”和“实现”应当理解为“至少一个实现”。术语“另一实现”应当理解为“至少一个其他实现”。术语“第一”、“第二”等可以指代不同或相同的对象。下面可以包括其他定义(无论是明确的还是隐含的)。
[0013]示例环境
[0014]文本行检测现在在很多基于内容的视觉智能应用中发挥着重要作用,诸如图像检索、自动驾驶、OCR翻译等。常规的文本行检测技术可以很好地应用于捕获良好的文档图像。然而,由于这些图像中文本外观和周围背景两者的巨大多样性,这些常规的文本行检测方法在自然场景的图像中表现不佳。良好的文本行检测解决方案应当能够从扫描的文档图像和自然场景图像两者中稳健地检测任何语言和任何定向的文本行。然而,由于文本外观和周围背景两者的巨大多样性,现有的文本检测方法(包括自上而下和自下而上的方法两者)都无法实现这一目标。在本文中描述的主题的实现中,提供了用于通用文本行检测的解决方案。
[0015]图1示出了可以在其中实现本文中描述的主题的各种实现的计算设备100的框图。应当理解,图1所示的计算设备100仅出于说明的目的,而不暗示以任何方式对本文中描述的主题的实现的功能和范围的任何限制。如图1所示,计算设备100包括通用计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150和一个或多个输出设备160。
[0016]在一些实现中,计算设备100可以实现为具有计算能力的任何用户终端或服务器终端。服务器终端可以是由服务提供方提供的服务器、大型计算设备等。用户终端例如可以是任何类型的移动终端、固定终端或便携式终端,包括移动电话、站、单元、设备、多媒体计算机、多媒体平板计算机、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或其任何组合,包括这些设备的附件和外围设备、或其任何组合。可以设想,计算设备100可以支持到用户的任何类型的接口(诸如,“可穿戴”电路系统等)。
[0017]处理单元110可以是物理或虚拟处理器,并且可以基于存储在存储器120中的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令以提高计算设备100的并行处理能力。处理单元110也可以称为中央处理单元(CPU)、微处理器、控制器或微控制器。
[0018]计算设备100通常包括各种计算机存储介质。这样的介质可以是计算设备100可访问的任何介质,包括但不限于易失性和非易失性介质、或可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如,寄存器、高速缓存、随机存取存储器(RAM))、非易失性存储器(诸如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)或闪存)或其任何组合。存储设备130可以是任何可拆卸或不可拆卸介质,并且可以包括机器可读介质,诸如存储器、闪存驱动器、磁盘、或其他介质,该介质可以用于存储信息和/或数据并且可以在计算设备100中访问。
[0019]计算设备100还可以包括附加的可拆卸/不可拆卸的易失性/非易失性存储介质。
尽管在图1中未示出,但可以提供一种用于读取和/或写入可拆卸的非易失性磁盘的磁盘驱动器、和一种用于读取和/或写入可拆卸的非易失性光盘的光盘驱动器。在这种情况下,每个驱动器可以经由一个或多个数据介质接口连接到总线(未示出)。
[0020]通信单元140经由通信介质与另一计算设备通信。此外,计算设备100中的组件的功能可以由单个计算集群或多个计算机器来实现,该多个计算机器可以经由通信连接进行通信。因此,计算设备100可以使用与一个或多个其他服务器、联网个人计算机(PC)或另外的通用网络节点的逻辑连接在联网环境中操作。
[0021]输入设备150可以是多种输入设备中的一种或多种设备,诸如鼠标、键盘、跟踪球、语音输入设备等。输出设备160可以是多种输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:确定图像中的第一文本区域和第二文本区域,所述第一文本区域包括至少第一文本元素的第一部分,并且所述第二文本区域包括至少第二文本元素的第二部分;从所述第一文本区域中提取第一特征表示并且从所述第二文本区域中提取第二特征表示,所述第一特征表示和所述第二特征表示包括图像特征表示或语义特征表示中的至少一项;以及至少部分基于所述第一特征表示和所述第二特征表示,来确定所述第一文本区域与所述第二文本区域之间的链接关系,所述链接关系指示所述第一文本元素的所述第一部分和所述第二文本元素的所述第二部分是否位于同一文本行中。2.根据权利要求1所述的方法,其中从所述第一文本区域中提取第一特征表示并且从所述第二文本区域中提取第二特征表示包括:从所述第一文本区域中识别至少所述第一文本元素,并且从所述第二文本区域中识别至少所述第二文本元素;以及基于所识别的所述第一文本元素而生成第一语义特征表示,并且基于所识别的所述第二文本元素而生成第二语义特征表示。3.根据权利要求1所述的方法,其中确定所述第一文本区域和所述第二文本区域包括:从所述图像中标识多个文本区域;以及根据以下至少一项,从所述多个文本区域中选择所述第一文本区域和所述第二文本区域:确定所述第一文本区域的第一大小与所述第二文本区域的第二大小之间的差低于大小阈值,或者确定所述第一文本区域的第一中心与所述第二文本区域的第二中心之间的第一距离低于距离阈值。4.根据权利要求1所述的方法,其中确定所述第一文本区域与所述第二文本区域之间的链接关系包括:提取指示以下至少一项的第三特征表示:所述第一文本区域与所述第二文本区域之间的空间关系、或所述第一文本元素与所述第二文本元素之间的语义关系;以及进一步基于所述第三特征表示来确定所述链接关系。5.根据权利要求4所述的方法,其中提取所述第三特征表示包括:确定至少界定所述第一文本区域和所述第二文本区域的第三文本区域;以及从所述第三文本区域中提取所述第三特征表示。6.根据权利要求4所述的方法,其中确定所述第三特征表示包括:获取与所述第一文本区域相关联的第一坐标集和与所述第二文本区域相关联的第二坐标集;以及基于所述第一坐标集和所述第二坐标集来确定所述第三特征表示。7.根据权利要求1所述的方法,还包括:根据所述链接关系指示所述第一文本区域中的所述第一文本元素的所述至少一部分和所述第二文本区域中的所述第二文本元素的所述至少一部分位于所述同一文本行中,确定在所述图像中至少界定所述第一文本区域和所述第二文本区域的第一文本行区域;以及
提供所述第一文本行区域。8.根据权利要求7所述的方法,其中提供所述第一文本行区域包括:确定所述图像中的第二文本行区域,所述第一文本行区域与所述第二文本行区域之间的重叠...

【专利技术属性】
技术研发人员:孙雷霍强马驰翔钟卓耀
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1