检测图像中所含文本的方法、装置和计算机可读记录介质制造方法及图纸

技术编号:15983170 阅读:45 留言:0更新日期:2017-08-12 05:46
本发明专利技术涉及检测图像中包含的文本的方法、装置和计算机可读记录介质。该方法包括:步骤a:在获得输入图像时,装置基于输入图像中包含的像素的特征值,在输入图像中检测至少一个候选文本,或对此进行协助;步骤b:装置基于在包含检测出的候选文本的区域内所选择的至少一个像素的特征值或该特征值的转换值,(i)将检测出的候选文本与第一阈值比较以将检测出的候选文本分类为强文本或非强文本,或对此进行协助,且(ii)将分类成非强文本的候选文本与第二阈值比较以将分类成非强文本的候选文本分类成弱文本或非文本,或对此进行协助;和步骤c:装置基于强文本和弱文本的相关信息,判断是否将弱文本分类为强文本,或是否对此进行协助。

【技术实现步骤摘要】
检测图像中所含文本的方法、装置和计算机可读记录介质
本专利技术涉及检测图像中包含的文本的方法、装置和计算机可读记录介质,更具体地涉及包括如下步骤的方法、装置和计算机可读记录介质:在获得输入图像时,基于将所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助;基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,(i)将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且(ii)将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助;以及基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或对此进行协助。
技术介绍
图像内的文本经常提供有意义的信息,因此认为在诸如图像和视频检索(imageandvideoretrieval)、多语言翻译、汽车援助(automotiveassistance)等各种计算机视觉应用中检测并识别场景文本(SceneText)是重要的。场景文本检测算法为用于在图像中检测文本(字符)的算法,根据候选文本提取方法大致可分为滑动窗口(slidingwindow)方式和连通域分析(connectedcomponentanalysis)方式。滑动窗口方式为在图像的所有位置中多尺度移动窗口以检测场景图像的文本的技术。该技术具有彻底地搜索输入图像因此表示检测了多少文本区域的查全率(recallrate)高的优点。然而,由于彻底的窗口扫描而不可避免地造成大量的计算量,且许多候选文本可以造成大量的误检(falsepositive)。因此,滑动窗口方式不适用于实时应用。在X.Chen和A.L.Yuille的Detectingandreadingtextinnaturalscenes(InProc.CVPR2004,第366–373页,2004)等中介绍了窗口滑动方式。因此,由于滑动窗口方式需要大量的计算量,因此近来的趋势是大量使用连通域分析方式。连通域分析方式为了从输入图像提取作为共享类似文本特性的像素的集合的候选文本且抑制非候选文本而执行检测候选文本的工作。笔画宽度变换(strokewidthtransform,SWT)和最大稳定极值区域(maximallystableextremalregion,MSER)是连通域分析的代表性技术。这些方法在场景文本检测中提供最先进的性能。在B.Epshtein、E.Ofek和Y.Wexler的Detectingtextinnaturalsceneswithstrokewidthtransform(InProc.CVPR2010,第2963–2970页,2010)等中介绍了连通域分析方式。然而,在连通域分析方式中,在检测候选文本时使用的一般的约束条件具有在检测许多真文本时进行限制性的评估且结果示出低的查全率的局限性。因此,需要在图像中检测文本时发挥最佳性能的同时也能够具有高的查全率的文本检测技术。
技术实现思路
技术问题本专利技术的目的在于解决所有上述问题。此外,本专利技术的另一目的在于提供在发挥最佳性能的同时也能够具有高的查全率的文本检测技术。此外,本专利技术的又一目的在于提供能够通过利用多阈值将候选文本分类为强文本、弱文本和非文本而具有高的查全率的文本检测技术。此外,本专利技术的又一目的在于提供能够通过在将候选文本分类为强文本和弱文本后,基于强文本和弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分,来将弱文本编入强文本中,而具有高的查全率的文本检测技术。技术方案为了实现上述目的的本专利技术的代表性的结构如下。根据本专利技术的一方面,提供一种检测图像中包含的文本的方法,包括:步骤a:装置在获得输入图像时,基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助;步骤b:所述装置基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或所述特征值的转换值,(i)将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且(ii)将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助;以及步骤c:所述装置基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或是否对此进行协助。根据本专利技术的另一方面,提供一种检测图像中包含的文本的装置,包括:通信部,所述通信部获取图像;以及处理器,所述处理器在获得所述图像时,(i)基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助,(ii)基于在包含所检测出的候选文本的区域内选择的至少一个像素的特征值或所述特征值的转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助,(iii)基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或对此进行协助。此外,本专利技术还提供一种计算机可读记录介质,所述计算机可读记录介质用于记录用于实施实现本专利技术的其他方法、装置和所述方法的计算机程序。有益效果本专利技术具有如下效果。本专利技术具有提供在发挥最佳性能的同时也能够具有高的查全率的文本检测技术的效果。此外,本专利技术具有能够通过利用多阈值将候选文本分类为强文本、弱文本和非文本而在文本检测时实现高的查全率的效果。此外,本专利技术具有能够通过在将候选文本分类为强文本和弱文本后,基于强文本和弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分,来将弱文本编入强文本中,从而在文本检测时实现高的查全率的效果。附图说明图1是示出根据本专利技术的一实施例的用于检测图像中包含的文本的装置的结构的框图。图2是示出根据本专利技术的一实施例的装置检测图像中包含的文本的过程的流程图。图3是示出根据本专利技术的一实施例的ER树的示例的图。图4是示出MLBP转换的示例的图。图5是示出在利用根据本专利技术的文本检测方法在示例性图像中检测文本的各过程中的中间结果的图。图6至图8是示出其他文本检测技术和本专利技术的性能的比较实验结果。具体实施方式后述的对本专利技术的详细说明参照示例性地示出能够实施本专利技术的特定实施例的附图。对这些实施例进行充分详细的说明,以使本领域的技术人员能够实施本专利技术。应当理解,本专利技术的各种实施例虽然彼此不同,但无需相互排斥。例如,本说明书中对于一实施例所记载的特定形状、结构和特性在不脱离本专利技术的精神和范围的情况下可以以其它实施例实现。此外,应理解为,各个所公开的实施例内的个别组成部分的位置或配置在不脱离本专利技术的精神和范围的情况下可进行变更。因此,后述的详细说明并不是限定性的,如果合理地说明,则本专利技术的保护范围仅通过所附的权利要求来限定,且包含与该权利要求所主张的范围等同的所有范围。在附图中,相似的附图标记在多个方面表示相同或相似的功能。本专利技术提出考虑下列标准的文本检测技术。本专利技术人将满足下列标准的根据本专利技术的检测器命名为Can本文档来自技高网
...
检测图像中所含文本的方法、装置和计算机可读记录介质

【技术保护点】
一种检测图像中包含的文本的方法,包括:步骤a:装置在获得输入图像时,基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助;步骤b:所述装置基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助;以及步骤c:所述装置基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或是否对此进行协助。

【技术特征摘要】
2016.02.03 US 15/014,4411.一种检测图像中包含的文本的方法,包括:步骤a:装置在获得输入图像时,基于所述输入图像中包含的像素的特征值,在所述输入图像中检测至少一个候选文本,或对此进行协助;步骤b:所述装置基于在包含所检测出的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助;以及步骤c:所述装置基于所述强文本和所述弱文本的相关信息,判断是否将所述弱文本分类为所述强文本,或是否对此进行协助。2.根据权利要求1所述的方法,其特征在于,在所述步骤c中,所述装置基于所述强文本和所述弱文本的相关信息,将所述弱文本分类为所述强文本或非文本,或对此进行协助。3.根据权利要求1所述的方法,其特征在于,在所检测出的候选文本为多个时,在所述步骤a后,还包括步骤a1:所述装置识别包括包含所检测出的多个候选文本的区域以预定比率以上彼此重叠的候选文本的至少一个候选文本组且针对所识别的各候选文本组选择满足预定条件的候选文本,或对此进行协助,其中,在所述步骤b中,基于在包含满足所述预定条件的候选文本的区域中所选择的至少一个像素的特征值或所述特征值的转换值,将满足所述预定条件的候选文本与所述第一阈值比较以将满足所述预定条件的候选文本分类为所述强文本或所述非强文本,或对此进行协助,且将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本,或对此进行协助。4.根据权利要求1所述的方法,其特征在于,在所述步骤a中,当所述输入图像的预定区域中所包含的所有像素的特征值大于或小于所述预定区域的外部边界区域的特征值时,所述装置将所述预定区域检测为一个候选文本,或对此进行协助。5.根据权利要求4所述的方法,其特征在于,所述装置改变所述预定区域的像素强度水平以检测所述至少一个候选文本,或对此进行协助,在所检测出的所述至少一个候选文本中,所述装置将所述预定区域的像素强度水平相对大的低等级候选文本中所述预定区域的像素强度水平最大的候选文本以及包含所述低等级候选文本的区域且所述预定区域的像素强度水平相对小的高等级候选文本中所述预定区域的像素强度水平最大的候选文本分别分配至子节点和母节点以配置树,或对此进行协助。6.根据权利要求5所述的方法,其特征在于,针对所述树中的特定节点,当包含与所述特定节点对应的候选文本的区域以及包含与祖先节点对应的候选文本的区域以预定比率以上重叠的情况出现预定次数以上时,所述装置选择与包含候选文本的区域相比于自身的特定祖先节点的变化量相对最小的节点相对应的候选文本,或对此进行协助,其中,所述与祖先节点对应的候选文本包含与所述特定节点对应的候选文本的区域且所述预定区域的像素强度水平相对小,在所述步骤b中,基于在包含所选择的候选文本的区域内所选择的至少一个像素的特征值或所述特征值的转换值,将满足所述预定条件的候选文本与所述第一阈值比较以将满足所述预定条件的候选文本分类为所述强文本或所述非强文本,或对此进行协助,且将分类为所述非强文本的候选文本与所述第二阈值比较以将分类为所述非强文本的候选文本分类为所述弱文本或所述非文本,或对此进行协助。7.根据权利要求1所述的方法,还包括:步骤d:所述装置将通过与所述第一阈值比较而分类的强文本和从所述弱文本编入的强文本归组,或对此进行协助。8.根据权利要求7所述的方法,其特征在于,当将第一强文本和从第一弱文本编入的第二强文本归组,且基于所述第二强文本和第二弱文本的相关信息,将所述第二弱文本分类为第三强文本时,所述装置将所述第三强文本与所述第一强文本和所述第二强文本归组在一起,或对此进行协助。9.根据权利要求1所述的方法,其特征在于,在所述步骤b中,当在所述第一阈值和所述第二阈值之间存在至少一个中间阈值时,将分类成所述非强文本的候选文本与所述中间阈值进行比较以将分类成所述非强文本的候选文本分类为所述强文本或次弱文本,或对此进行协助,且将所述次弱文本与所述第二阈值进行比较以将所述次弱文本分类为所述弱文本或所述非文本,或对此进行协助。10.根据权利要求1所述的方法,其特征在于,在所述步骤b中,所述装置基于在包含所检测出的候选文本的区域内所选择的像素的特征值的平均局部二进制模式转换值,将所检测出的候选文本与第一阈值比较以将所检测出的候选文本分类为强文本或非强文本,或对此进行协助,且将分类成所述非强文本的候选文本与第二阈值比较以将分类成所述非强文本的候选文本分类成弱文本或非文本,或对此进行协助。11.根据权利要求1所述的方法,其特征在于,在所述步骤b中,所述装置使用由AdaBoost算法所训练的分类器对所检测出的候选文本进行分类,或对此进行协助。12.根据权利要求1所述的方法,其特征在于,在所述步骤c中,所述相关信息包括所述强文本和所述弱文本的位置信息、大小信息、颜色信息、笔画宽度信息中的至少一部分。13.根据权利要求1所述的方法,其特征在于,包含所检测出的候选文本的区域是额外的空白区域被最小化且包含所检测出的候选文本的边界框区域。14.一种用...

【专利技术属性】
技术研发人员:赵浩辰
申请(专利权)人:斯特拉德视觉公司
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1