当前位置: 首页 > 专利查询>微软公司专利>正文

在包括西文字符和象形字符的图像中文本行的分割制造技术

技术编号:8082159 阅读:331 留言:0更新日期:2012-12-14 15:15
一种图像处理设备分割文本行中的西文和象形部分。该设备包括接收具有至少一个文本行的输入图像的输入部件(102)。该设备还包括识别候选字符间中断的字符间中断标识符部件(104)和字符间中断分类器部件。字符间中断分类器部件(104)将候选字符间中断中的每一个分类为实际中断、非中断或不确定中断。字符识别部件(108)至少部分基于从每个相应候选字符提取的特征组识别所述候选字符。西文和象形文本分类器部件(114)发现文本行片段并将其分类为西文文本片段或象形文本片段。

【技术实现步骤摘要】
【国外来华专利技术】在包括西文字符和象形字符的图像中文本行的分割
技术介绍
光学字符识别(OCR)是一种基于计算机的转换,其一般以标准编码方案中将文本的图像转换成如机 器可编辑文本那样的数字形式。这个过程消除了向计算机系统中人工键入文档的需要。OCR过程典型地通过获得承载印刷文本消息的物理文档的电子文件并利用诸如光学扫描仪之类的装置扫描文档开始。这样的装置产生原始文档的电子图像。然后将输出图像供应给计算机或其他处理装置,并处理被扫描文档的图像以在图像和文本之间进行区分,并确定明亮和黑暗区域中代表的是什么字母。越来越多地使用计算机和因特网的结果是,与更频繁地在全世界使用英语结合,发现包括西文文字和东亚(例如中国、日本、韩国)文本组合的文本图像变得很常见,其形式常常是西文文字混合在东亚文本选集中。因此,用于东亚文本的OCR引擎应当理想地能够识别具有东亚和西文文本混合的文本行。
技术实现思路
为了支持OCR过程,需要识别仅有东亚文本字符间中断和个体字符的东亚或象形文本行。此外,对于既有西文又有东亚文本的文本行,需要将文本的西文和东亚片段彼此分开,并且需要向每个片段应用适当的文本识别逻辑。在一种实施方式中,提供了一种方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:I米蒂克
申请(专利权)人:微软公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1