文字检测方法和装置制造方法及图纸

技术编号:13193223 阅读:54 留言:0更新日期:2016-05-11 20:00
本发明专利技术公开了一种文字检测方法和装置。该文字检测方法包括:接收待检测图像;经由语义预测模型生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域;以及对所述文字区域概率图进行分割操作,以确定所述文字区域。上述文字检测方法和装置可以在有效抑制复杂背景的干扰的同时,检测不同语种、方向、颜色、字体和尺寸的文字,适应范围广。此外,该文字检测方法和装置具有鲁棒性强的特点,可以有效应对图像噪声、图像模糊、图像中复杂背景、非均匀光照等因素的干扰。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,具体涉及一种文字检测方法和装置
技术介绍
随着智能手机的广泛普及和移动互联网的迅速发展,通过手机等移动终端的摄像头获取、检索和分享资讯已经逐步成为一种生活方式。基于摄像头的(Camera-based)的应用更加强调对拍摄场景的理解。通常,在文字和其他物体并存的场景,用户往往首先更关注场景中的文字信息,因而正确识别图像中的文字对用户拍摄意图会有更深入的理解。这就涉及了文字检测技术来识别拍摄图像中的文字区域。文字检测作为一项重要的基础技术,具有巨大的应用价值和广阔的应用前景,特别是自然场景图像的文字检测。例如,自然场景图像的文字检测技术可直接应用于增强现实、地理定位、人机交互、机器人导航、自动驾驶汽车和工业自动化等领域。然而,待检测图像中大多包含较复杂的背景,且其质量可能受到噪声、模糊、非均匀光照等因素的影响;此外,文字具有多样性,比如,自然场景图像中的文字可能具有不同的颜色、尺寸、字体和方向等。这些因素都会给文字检测带来巨大的困难和挑战。基于上述原因,现有的文字检测方法容易产生虚警(false alarm),也即将背景中的非文字成分错误地判别为文字。此外,现有的文字检测方法在适应性方面也存在不足之处,例如,大部分方法只能检测水平方向的文字,对于倾斜或旋转的文字则无能为力。又例如,有些方法只能够应用于中文检测,无法直接推广到不同类别语言(如英文、俄文、韩文等)的文字。而且当图像中存在严重的噪声、模糊或者非均匀光照时,现有的文字检测方法又往往会产生错误。总之,现有的文字检测方法和系统在精度和适用范围等方面存在缺陷。【专利技术内容】鉴于上述问题,提出了本专利技术以便提供一种至少部分地解决上述问题的文字检测方法和装置。根据本专利技术一个方面,提供了一种文字检测方法,包括:接收待检测图像;经由语义预测模型生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域;以及对所述文字区域概率图进行分割操作,以确定所述文字区域。根据本专利技术另一方面,还提供了一种文字检测装置,包括语义分析模块和分割模块。语义分析模块用于接收待检测图像,并使用语义预测模型以生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域。分割模块用于对所述文字区域概率图进行分割操作,以确定所述文字区域。上述文字检测方法和装置中,支持对待检测图像的全图直接进行文字检测,不同于基于简单阈值分割、滑动窗或连通分量的算法。其可以在有效抑制复杂背景的干扰的同时,检测不同语种、方向、颜色、字体和尺寸的文字,适应范围广。此外,该文字检测方法和装置具有鲁棒性强的特点,可以有效应对图像噪声、图像模糊、图像中复杂背景、非均匀光照等因素的干扰。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1a和图1b分别示例性地示出了根据本专利技术一个实施例的待检测图像和经检测图像;图2示例性地示出了根据本专利技术一个实施例的文字检测方法的流程图;图3a和图3b、图4a和图4b、图5a和图5b、图6a和图6b分别不例性地不出了根据本专利技术的实施例的待检测图像的全图和其对应生成的文字区域概率图。图7示例性地示出了根据本专利技术一个实施例的获得待检测图像的方法的流程图;图8示例性地示出了根据本专利技术一个实施例的对文字区域概率图进行分割操作的方法的流程图;图9示例性地示出了根据本专利技术一个实施例的训练神经网络的方法的流程图;图10a、图10b、图1Oc和图1Od分别示出了根据本专利技术一个实施例的具有标注信息的样本图像;图1la和图1lb分别示出了根据本专利技术一个实施例的具有标注信息的样本图像和其对应的掩模图;图12示例性地示出了根据本专利技术一个实施例的全卷积神经网络的示意图;图13示例性地示出了根据本专利技术一个实施例的文字检测装置的示意性框图;图14示例性地示出了根据本专利技术另一个实施例的文字检测装置的示意性框图;以及图15示例性地示出了根据本专利技术一个实施例的文字检测系统的示意性框图。【具体实施方式】下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为了更合理地自动识别图像中文字区域,本专利技术提供了一种文字检测方法。图1a和图1b分别示例性地示出了根据本专利技术一个实施例的待检测图像和经检测图像。图2示出了根据本专利技术一个实施例的文字检测方法200的流程图。如图2所示,该方法200包括步骤S210至步骤S230。在步骤S210中,接收待检测图像。待检测图像可以是原始图像,也可以是对原始图像进行预处理后得到的图像。在本专利技术的一个实施例中,可以通过对采集到的原始图像进行预处理得到所述待检测图像。下文中将结合具体附图对所述图像预处理的方法进行详细描述。在步骤S220中,经由语义预测模型生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域。根据本专利技术的一个实施例,文字区域是指图像中包含文字的区域。以图1a和图1b为例,图1b中两个黑色四边形内部的区域是文字区域。在第一个文字区域中,包含文字“我在生长”,在第二个文字区域中,包含文字“请不要踩我”。在一个实施例中,文字区域概率图使用不同的像素值表示不同的概率以区分所述待检测图像的文字区域和所述待检测图像的非文字区域。在一个实施例中,图像的像素值越高表示该像素所在区域属于文字区域的概率越高,图像的像素值越低则表示该像素所在区域属于文字区域的概率越低。例如像素值为O的黑色像素表示该像素所在区域属于文字区域的概率为O,像素值为255的白色像素表示该像素所在区域属于文字区域的概率为100%。根据本专利技术的一个实施例,待检测图像的全图经由语义预测模型生成文字区域概率图。语义预测模型用于根据待检测图像的语义生成文字区域概率图,以预测待检测图像中的像素属于文字区域还是属于非文字区域。图像语义是图像的高层特征,其虽然以图像的色彩、纹理、形状等等底层特征为基础,但是与这些底层特征显著不同。图像语义作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用。图像理解输入的是图像数据,输出的是知识,其属于图像研究领域的高层内容。语义预测模型能够实现图像理解,其能够直接根据图像语义识别图像中的文字区域,这与基于阈值分割图像的各个模型显著不同。语义预测模型可以基于其对待检测图像的理解,根据待检测图像的语义,本文档来自技高网...
文字检测方法和装置

【技术保护点】
一种文字检测方法,包括:接收待检测图像;经由语义预测模型生成所述待检测图像的全图的文字区域概率图,其中,所述文字区域概率图使用不同的像素值区分所述待检测图像的文字区域和所述待检测图像的非文字区域;以及对所述文字区域概率图进行分割操作,以确定所述文字区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:姚聪周舒畅周昕宇印奇
申请(专利权)人:北京旷视科技有限公司北京小孔科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1