文档光学字符识别制造技术

技术编号:20499761 阅读:20 留言:0更新日期:2019-03-03 03:24
车辆和其他项目通常具有对应的文档,比如登记卡,这种文档包括可以用于识别项目的大量告知性文本信息。当处理非合作图像时,传统的OCR可能会失败。因此,诸如去扭曲、文本对齐以及线条识别和移除之类的特征可以有助于非合作图像的OCR。去扭曲包括确定图像中所描绘的文档的曲率,并且对图像加以处理以使文档的图像去扭曲,进而使其更准确地满足合作图像的目标。文本对齐包括确定所描绘文本的实际对齐,即使是在所描绘文本没有与所描绘的视觉提示对齐时。线条识别和移除包括识别图像中的描绘线条的部分,并在进行图像的OCR处理之前移除那些线条。

Document Optical Character Recognition

Vehicles and other items usually have corresponding documents, such as registration cards, which include a large amount of informative text information that can be used to identify items. Traditional OCR may fail when processing non-cooperative images. Therefore, features such as de-distortion, text alignment, line recognition and removal can help OCR of non-cooperative images. De-distortion includes determining the curvature of the document depicted in the image, and processing the image to distort the image of the document, so that it can more accurately meet the target of the cooperative image. Text alignment includes determining the actual alignment of the depicted text, even when the depicted text is not aligned with the depicted visual cues. Line recognition and removal includes recognizing the parts of the lines depicted in the image, and removing those lines before OCR processing of the image.

【技术实现步骤摘要】
【国外来华专利技术】文档光学字符识别优先权主张本申请要求2016年5月25日提交的标题为“文档光学字符识别”的美国专利申请第15/164,594号的优先权,其全部内容通过引用的方式并入本文中。
本文公开的主题总体上涉及光学字符识别。具体地,本公开涉及与项目描述文档的图像中的文本光学字符识别有关的系统和方法。
技术介绍
光学字符识别(OCR)在文档上的文本与图像的边缘对齐且图像质量较高时用来识别文本图像中的字符。具有适当光线水平的图像(其中文档直接面向摄像机并与其恰当地对齐,并且其中图像不包含除文档以外的任何对象)被称为“合作的”。缺少这些特征中的一个或多个特征的图像被称为“非合作的”。例如,光线水平较差的图像或者包括遮挡了文档的一个或多个部分的遮蔽物的图像是非合作的。在处理非合作图像时,传统的OCR可能会失败。附图说明在附图中,通过示例而非限制性的方式示出了一些实施例。图1是示出了根据一些示例性实施例的适合于车辆登记光学字符识别的网络环境的网络图。图2是示出了根据一些示例性实施例的适合于车辆登记光学字符识别的识别服务器的组件的框图。图3是示出了根据一些示例性实施例的适合于捕获文档的图像并与配置为基于图像来识别项目的服务器进行通信的设备的组件的框图。图4示出了根据一些示例性实施例的文档的示例性二值化图像。图5示出了根据一些示例性实施例的文档的示例性去扭曲图像。图6示出了根据一些示例性实施例的图像中的检测到的线条的示例。图7示出了根据一些示例性实施例的图像中的检测到的页面边界的示例。图8示出了根据一些示例性实施例的图像中的检测到的文本位置的示例。图9示出了根据一些示例性实施例的图像中的检测到的文本字段的示例。图10是流程图,其示出了根据一些示例性实施例的设备在执行识别图像中所描绘的文本的过程期间的操作。图11是流程图,其示出了根据一些示例性实施例的设备在执行识别图像中所描绘的文本的过程期间的操作。图12是流程图,其示出了根据一些示例性实施例的没备在执行为根据图像中所描绘的文本识别出的项目生成待售列表的过程期间的操作。图13是示出了根据一些示例性实施例的可以安装在机器上的软件架构的示例的框图。图14是根据示例性实施例的计算机系统形式的机器的图示,在该机器中可以执行一组指令,以使机器执行本文所讨论的任何一种或多种方法。具体实施方式示例性方法和系统涉及根据图像中所描绘的文本对项目进行识别。示例仅代表的是可能的变型。除非另有明确说明,否则,组件和功能是可选的并且可以进行组合或细分,操作在顺序上可以发生变化或者可以进行组合或细分。在以下描述中,出于解释的目的,阐述了许多具体细节,以提供对示例性实施例的透彻理解。然而,对于本领域技术人员将会是显而易见的是,可以在没有这些具体细节的情况下实践本主题。车辆和其他项目通常具有对应的文档(比如,登记卡),这种文档包括可以用于识别项目的大量告知性文本信息。当文档上的文本与图像边缘对齐并且图像质量较高时,可以采用传统的光学字符识别(OCR)。在处理非合作图像时,传统的OCR可能会失败。因此,诸如去扭曲、文本对齐以及线条识别和移除之类的特征可以帮助实现非合作图像的OCR。去扭曲包括:确定图像中所描绘的文档的曲率,并且对图像加以处理以使文档的图像去扭曲,进而使其更准确地满足合作图像的要求。在一些示例性实施例中,通过识别在原始文档上呈笔直状态但在图像中却呈弯曲状态的线条来实现去扭曲。应用使图像中的线条变直的变换,由此对图像的线条和其他部分进行去扭曲处理。文本对齐包括:确定所描绘文本的实际对齐,即使是在所描绘的文本没有与所描绘的视觉提示(例如,表格上的线条或框)对齐时。在一些示例性实施例中,以不同的位置和间距在文本上虚拟地叠加线条网格,从而确定文本的行对齐。与所识别的文本位置重叠最少的网格的位置和间距可以用作文本对齐的依据。线条识别和移除包括:识别图像的描绘了线条的部分,并在对图像进行OCR处理之前移除那些线条。在一些示例性实施例中,线条识别包括:通过识别图像的相应部分并取那些相应部分中像素的颜色的平均值来检测线条与文本之间的色差。检测到的线条颜色可以用于识别图像的表示文本的部分内的像素。当对文本部分执行OCR时,可以移除或忽略所识别的像素。图1是示出了根据一些示例性实施例的适合于车辆登记OCR的网络环境100的网络图。网络环境100包括电子商务服务器120和140、识别服务器130以及设备150A、150B和150C,它们都经由网络170彼此之间通信地耦合。设备150A、150B和150C可以统称为“设备150”或通用地称为“设备150”。电子商务服务器120和识别服务器130可以是基于网络的系统110的一部分。或者,设备150可以直接地或者通过与用于连接到电子商务服务器120或140的网络170不同的本地网络连接到识别服务器130。电子商务服务器120和140、识别服务器130以及设备150各自可以在计算机系统内全部地或部分地实现,如下面结合图13至图14所述。电子商务服务器120和140经由网络170向其他机器(例如,设备150)提供电子商务应用程序。电子商务服务器120和140也可以直接连接到识别服务器130或与其集成在一起。在一些示例性实施例中,一个电子商务服务器120和识别服务器130是基于网络的系统110的一部分,而其他电子商务服务器(例如,电子商务服务器140)与基于网络的系统110分开。电子商务应用程序可以为用户提供实现如下目的的方式:相互之间直接买卖项目,针对电子商务应用程序提供商实施购买及销售行为,或者这两者皆有。图1中还示出了用户160。用户160可以是人类用户(例如,人)、机器用户(例如,由软件程序配置为与设备150和识别服务器130进行交互的计算机)或其任何合适的组合(例如,由机器辅助的人或由人监管的机器)。用户160不是网络环境100的一部分,而是与设备150相关联,并且可以是设备150的用户。例如,设备150可以是传感器、台式计算机、车辆计算机、平板电脑、导航设备、便携式媒体设备或属于用户160的智能电话。在一些示例性实施例中,识别服务器130接收关于用户拥有的项目的数据。例如,附接到设备150A的摄像机可以拍摄用户160希望出售的车辆的车辆登记表的图像,并且可以通过网络170将图像传输到识别服务器130。识别服务器130基于图像识别出车辆。可以将与所识别的车辆有关的信息发送到电子商务服务器120或140、设备150A或其任何组合。该信息可以由电子商务服务器120或140用来帮助生成待售车辆的列表。类似地,图像可以是包含与用户160感兴趣的项目有关的信息的文档,并且该信息可以由电子商务服务器120或140用来帮助选择将要向用户160展示的项目的列表。图1中所示的任何机器、数据库或设备可以在如下的通用计算机中实现:该通用计算机借助于软件修改成(例如,配置成或编程成)专用计算机,用以执行本文针对该机器、数据库或设备所描述的功能。例如,下面结合图13至图14讨论了能够实现本文描述的任何一种或多种方法的计算机系统。如本文所用,“数据库”是数据存储资源并且可以存储被构造为文本文件、表格、电子表格、关系数据库(例如,对象关系数据库)、三元组存储、分层数据存储或其任何合适本文档来自技高网...

【技术保护点】
1.一种系统,包括:存储指令的存储器;以及一个或多个处理器,由所述指令配置为执行包括以下的操作:访问图像;确定所述图像的描绘文本的部分;识别所述图像中描绘的线段的颜色,所述线段处于所述图像的描绘文本的所述部分之外;以及通过对所述图像的描绘文本的所述部分执行光学字符识别且同时忽略所述图像的所述部分内具有所述线段的所述颜色的元素,识别所述文本。

【技术特征摘要】
【国外来华专利技术】2016.05.25 US 15/164,5941.一种系统,包括:存储指令的存储器;以及一个或多个处理器,由所述指令配置为执行包括以下的操作:访问图像;确定所述图像的描绘文本的部分;识别所述图像中描绘的线段的颜色,所述线段处于所述图像的描绘文本的所述部分之外;以及通过对所述图像的描绘文本的所述部分执行光学字符识别且同时忽略所述图像的所述部分内具有所述线段的所述颜色的元素,识别所述文本。2.根据权利要求1所述的系统,其中识别所述线段的所述颜色包括:确定所述颜色的多个不同颜色值,所述多个不同颜色值中的每一个对应于所述图像的描绘文本的所述部分的不同子部分。3.根据权利要求1所述的系统,其中对所述图像的描绘文本的所述部分执行光学字符识别包括:确定所述线段的所述颜色与所述图像的描绘文本的所述部分的每个元素的颜色之间的差值。4.根据权利要求3所述的系统,其中忽略所述部分内具有所述线段的所述颜色的元素包括:将每个元素的所述差值与预定阈值进行比较。5.根据权利要求1所述的系统,其中识别所述线段的所述颜色包括:将二元分类器应用于所述图像的一部分,以识别所述图像的描绘所述线段的部分。6.根据权利要求5所述的系统,其中识别所述线段的所述颜色还包括:确定所述图像的描绘所述线段的所述部分的平均颜色。7.根据权利要求1所述的系统,其中确定所述图像的描绘文本的部分包括:使用边缘检测来确定所述图像内的垂直能量的分布。8.根据权利要求1所述的系统,其中确定所述图像的描绘文本的部分包括:在所述图像上迭代地叠加网格,所述网格的参数对于每次迭代是不同的;在每次迭代中,确定所述网格与所述图像中描绘的前景项目之间的重叠程度;以及选择与所述迭代中最低重叠程度相对应的所述网格的参数。9.根据权利要求1所述的系统,其中所述操作还包括:使用所述文本来填充在线市场中的项目列表。10.根据权利要求9所述的系统,其中:所述图像描绘了车辆的车辆登记;以及所述项目列表是所述车辆的项目列表。11.一种方法,包括:访问图像;确定所述图像的描绘文本的部分;识别所述图像中描绘的线段的颜色,所述线段处于所述图像的描...

【专利技术属性】
技术研发人员:布拉德克·加斯克尔鲁宾逊·皮拉姆苏
申请(专利权)人:电子湾有限公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1