【技术实现步骤摘要】
【国外来华专利技术】在包括西文字符和象形字符的图像中文本行的分割
技术介绍
光学字符识别(OCR)是一种基于计算机的转换,其一般以标准编码方案中将文本的图像转换成如机 器可编辑文本那样的数字形式。这个过程消除了向计算机系统中人工键入文档的需要。OCR过程典型地通过获得承载印刷文本消息的物理文档的电子文件并利用诸如光学扫描仪之类的装置扫描文档开始。这样的装置产生原始文档的电子图像。然后将输出图像供应给计算机或其他处理装置,并处理被扫描文档的图像以在图像和文本之间进行区分,并确定明亮和黑暗区域中代表的是什么字母。越来越多地使用计算机和因特网的结果是,与更频繁地在全世界使用英语结合,发现包括西文文字和东亚(例如中国、日本、韩国)文本组合的文本图像变得很常见,其形式常常是西文文字混合在东亚文本选集中。因此,用于东亚文本的OCR引擎应当理想地能够识别具有东亚和西文文本混合的文本行。
技术实现思路
为了支持OCR过程,需要识别仅有东亚文本字符间中断和个体字符的东亚或象形文本行。此外,对于既有西文又有东亚文本的文本行,需要将文本的西文和东亚片段彼此分开,并且需要向每个片段应用适当的文本识别逻辑。在一种实施方 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。