一种图像处理设备分割文本行中的西文和象形部分。该设备包括接收具有至少一个文本行的输入图像的输入部件(102)。该设备还包括识别候选字符间中断的字符间中断标识符部件(104)和字符间中断分类器部件。字符间中断分类器部件(104)将候选字符间中断中的每一个分类为实际中断、非中断或不确定中断。字符识别部件(108)至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。西文和象形文本分类器部件(114)发现文本行片段并将其分类为西文文本片段或象形文本片段。
【技术实现步骤摘要】
【国外来华专利技术】在包括西文字符和象形字符的图像中文本行的分割
技术介绍
光学字符识别(OCR)是一种基于计算机的转换,其一般以标准编码方案中将文本的图像转换成如机 器可编辑文本那样的数字形式。这个过程消除了向计算机系统中人工键入文档的需要。OCR过程典型地通过获得承载印刷文本消息的物理文档的电子文件并利用诸如光学扫描仪之类的装置扫描文档开始。这样的装置产生原始文档的电子图像。然后将输出图像供应给计算机或其他处理装置,并处理被扫描文档的图像以在图像和文本之间进行区分,并确定明亮和黑暗区域中代表的是什么字母。越来越多地使用计算机和因特网的结果是,与更频繁地在全世界使用英语结合,发现包括西文文字和东亚(例如中国、日本、韩国)文本组合的文本图像变得很常见,其形式常常是西文文字混合在东亚文本选集中。因此,用于东亚文本的OCR引擎应当理想地能够识别具有东亚和西文文本混合的文本行。
技术实现思路
为了支持OCR过程,需要识别仅有东亚文本字符间中断和个体字符的东亚或象形文本行。此外,对于既有西文又有东亚文本的文本行,需要将文本的西文和东亚片段彼此分开,并且需要向每个片段应用适当的文本识别逻辑。在一种实施方式中,提供了一种方法和设备,用于对包括文本行的输入图像进行字符识别。该方法沿着文本行识别候选字符间中断并将每个候选字符间中断分类为实际中断、非中断或不确定中断。至少部分基于每个相应候选字符间中断和与其相邻的字符划界框的几何性质实现字符间中断分类。至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。可以用于字符识别的一个特定特征组是Gabor特征组。在另一种实施方式中,提供了一种图像处理设备用于分割文本行的西文和象形部分。该设备包括接收具有至少一个文本行的输入图像的输入部件。该设备还包括沿着文本行识别候选字符间中断的字符间中断标识符部件和字符间中断分类器部件。字符间中断分类器部件至少部分基于每个相应候选字符间中断和与其相邻的字符划界框的几何性质,将每个候选字符间中断分类为实际中断、非中断或不确定中断。字符识别部件至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。西文和象形文本分类器部件将文本行分割成西文文本片段或象形文本片段,并向输出部件输出结果。提供本
技术实现思路
是为了以简化形式介绍在下面具体实施方式中将进一步论述的概念的选择。本
技术实现思路
并非要标识所要求保护的主题的关键特征或必要特征,也并非要用作在确定所要求保护的主题范围时的辅助。附图说明图I和2分别示出了西文和东亚文本的文本行。图3示出了包含西文和象形文本的混合的文本行。图4示出了图像处理设备的一个范例,图像处理设备执行分割文本行的西文和象形部分的过程。图5a和5b示出了东亚文本字符的范例,该东亚文本字符被它们的相应划界框和它们之间候选字符间中断围绕。图6a示出了预处理之前的字符图像,连同其划界框的宽度和高度;图6b示出了已经拉伸之后的字符。图7-12示出了经历文本分割过程时的文本行。图13为示出了将文本行分成西文和象形文本片段的过程的一个范例的流程图。具体实施方式 光学字符识别(OCR)过程的一种重要方面是行识别和分割。不过,行的概念对于西文文本和东亚文本(或者更一般地,任何基于象形的文本,其中单个书写字符表示单词)而言具有不同含义。可以在图I和2中看出这种区别,它们分别示出了西文和东亚文本的文本行。具体而言,对于象形文本行而言,仅有字符的概念,而对于西文文本行而言,还有单词的概念。在其他情况下,例如这里论述的那些情况,文本行包含西文和象形文本的混合(图3)。为了支持用于西文和东亚或象形文本混合的OCR过程,需要解决若干问题。具体而言,对于仅有东亚文本的文本行,需要识别正确的字符间中断和个体字符。此外,对于既有西文文本又有东亚文本的文本行,必须要将文本行适当分割成西文和东亚文本片段。这些问题中的每一个都将得到逐一解决。图4示出了图像处理设备100的一个范例,图像处理设备可以执行分割文本行的西文和象形部分的过程。可以并入OCR引擎中的该设备可以由OCR引擎用于识别文本行中的西文和东亚或其他象形字符。该设备包括输入部件102,用于接收包括至少一个文本行的输入图像。字符间中断标识符部件104沿文本行识别候选字符间中断,并且字符间中断分类器部件106将候选字符间中断的每一个分成实际中断、非中断或不确定中断。该设备还包括字符识别引擎108,用于至少部分基于从每个相应候选字符提取的特征组识别候选字符。字符识别引擎108包括字符预处理部件110、字符特征提取部件112和字符分类部件113。西文和象形文本分类器部件114将文本行分割成西文文本片段和东亚或其他象形文本片段。该设备100还包括输出部件116,其从西文和象形文本分类器部件接收结果并产生关于文本行的信息,该信息的形式允许其由OCR引擎的后续部件采用。下面将论述上述部件中的每一个。字符间中断 字符间中断标识符部件104能够利用公知的垂直投影技术识别东亚或象形字符之间的候选中断,垂直投影技术可以包括用于分开彼此接触的符号的技术。图5a和5b示出了东亚文本中的字符间中断范例。不过,并非通过这种方式识别的所有候选字符间中断都是真实的中断。例如,在个体字符之间可能没有清楚的空间区别。相反,在个体字符之内可能会显现小的空间区别,其可能被错误识别为字符间中断。因此,需要一种方法确定哪些候选字符间中断最有可能是实际的字符间中断。由字符间中断分类器部件106将每个候选字符间中断分类成中断点、非中断点或不确定或未定点。中断点是两个字符之间的实际中断,而非中断点位于个体字符之内。因此,非中断点不是真实的字符间中断。换言之,字符不能跨越中断点,且字符不能开始或结束于非中断点。不过,字符能够跨越、起始于或结束于不确定点。为了对候选字符间中断分类,计算每个候选者的概率并设置两个阈值,一个针对中断,一个针对非中断。如果P(X)是候选者X代表实际中断的概率,然后如果P(x)>BREAK(中断),X将被分类为中断,如果p(x)〈N0N_BREAK,x将被分类为非中断,且在N0N_BREAK〈=p(x) <=BREAK时,候选者被分类为未定点,其可以在处理的稍后阶段中被分类。存在从上述字符间中断分类方案的使用产生的若干优点。例如,在后续处理步骤中移除分类为非中断的所有字符间候选中断,导致更好的性能和精确度。此外,分类为中断的所有字符间候选中断仅能够被视作字符开始或结束的点,这也导致更好的性能和精确度。在建立可用于将候选字符间中断分类成中断点、非中断点或未定点的字符间候选中断的特性或特征时,以下术语将是有用的。可以由字符间中断分类器部件106确定包括字符划界框的这些特征。Bi-第i个中断。每个中断都由两个X坐标(Bi. start和Bi. end)定义,且Bi. size=Bi. end-Bi. start+1。BBpi-第i个字符间中断前的划界框(图5a和5b中矩形划界框是可见的) BBsi-第i个字符间中断后的划界框 BBsi. top和BBsi. bottom-分别为划界框BBsi的顶部和底部坐标 BBpi. top和BBpi. bottom-分别为划界框BBpi的顶部和底部坐标 BBpi. width, BBpi. heig本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:I米蒂克,
申请(专利权)人:微软公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。