经历光学字符识别的图像的页面布局确定制造技术

技术编号：7978464 阅读：165 留言：0更新日期：2012-11-16 05:35

提供用于识别包括文本区域的图像的页面布局的方法和系统。文本区域将要经历光学字符识别（OCR）。该系统包括：输入组件，其接收包括词的输入图像，其中围绕所述词已形成边界框；以及文本识别组件，其将这些词分组到多个文本区域。读取行组件将每一个文本区域内的词分组到读取行。文本区域排序组件根据文本区域的读取顺序来对这些文本区域进行排序。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】经历光学字符识别的图像的页面布局确定
技术介绍
光学字符识别(OCR)—般是在标准编码方案中基于计算机的文本图像转换成数字形式作为机器可编辑文本。这种处理免除将文档手动键入计算机系统的需求。OCR处理通常通过利用诸如光学扫描仪之类的设备获得承载印刷文本消息的物理文档的电子文件并扫描文档来开始。这样的设备产生原始文档的电子图像。输出图像随后被提供给计算机或其他处理设备，并处理扫描文档的图像，以区分图像和文本并确定什么字母表示在亮区和暗区中
技术实现思路
包含文本的文档可以利用许多不同类型的布局在页面上进行安排。例如，文本可以安排在多个列中，并且图像可以穿插在文本的不同区域之间或甚至散布在文本列内。为了准确地执行OCR处理并保留原有的页面布局，重要的是在文档正在经历OCR时确定这种布局以及在那种布局内文本的读取顺序。在一种实现方式中，提供用于识别包括文本区域的图像的页面布局的方法。该方法通过接收包括词(word)的输入图像来开始,其中围绕词已形成边界框(bounding box)。这些词被分组(group)到多个文本区域。每一个文本区域内的词随后被分组到读取行。这些文本区域根据其读取顺序来排序。在一种特别实现方式中，通过首先识别一个或多个位于文本区域之间的空白区域(white space region),将这些词分组到多个文本区域。提供这个概述部分来以简化的形式介绍下面在详细描述部分中进一步描述的概念的选择。这个概述部分并不打算标识所请求保护主题的关键特征或基本特征，也不打算用作辅助手段来确定所请求保护的主题的范围。附图说明图I显示用于光学字符识别的系统的一个说明性...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：M琴波瓦，S加利奇，M乌德利亚，
申请(专利权)人：微软公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人