图像处理装置和图像处理方法制造方法及图纸

技术编号:2928087 阅读:145 留言:0更新日期:2012-04-11 18:40
一种图像处理装置包含:文档输入单元,其输入文档的文档数据;第一识别单元,其识别文档中包含的字符串的位置;第二识别单元,其基于字符串的方位来识别文档中给定的标记的范围;以及字符串提取单元,其基于第一识别单元所识别的字符串的位置和第二识别单元所识别的标记的范围来提取经受标记的字符串。

【技术实现步骤摘要】

本专利技术涉及一种图像处理装置和记录图像处理程序的记录媒介,其可用于文档的电子化和归档。
技术介绍
近年来,印刷在纸媒介上的文档(纸文档)常通过扫描仪进行扫描,并经过电子化而成为文档数据,且文档数据例如可存储在硬盘上以供使用。为了增加所存储文档的可用性,一般对每一文档数据给定一些属性信息(attribute information)。属性信息的典型实例可包含用于文档查找的关键字。用户可在存储文档数据时通过键盘输入所需关键字来登记用作属性信息的关键字。然而,在必须处理大量文档数据时,由于将要登记的关键字的数目由此而增加,因此通过键盘输入关键字可能变得繁重。
技术实现思路
根据本专利技术的一目的,本专利技术提供一种图像处理装置,包括文档输入单元,其输入文档的文档数据;第一识别单元,其识别文档中包含的字符串的位置;第二识别单元,其基于字符串的方位来识别文档中给定的标记的范围;以及字符串提取单元,其根据第一识别单元所识别的字符串的位置和第二识别单元所识别的标记的范围来提取经受标记的字符串。附图说明将基于以下图式详细描述本专利技术的示范性实施例,其中图1为绘示根据本专利技术示范性实施例的图像处理装置的构造实例的方框图。图2为绘示根据本专利技术示范性实施例的图像处理方法的流程图。图3为描述检测字符位置的处理的示意图。图4为绘示一实例中的字符串被划分为词的示意图。图5为描述定位字符串的处理的示意图。图6为描述识别标记范围的处理的示意图。图7为绘示通过字符串方位识别的标记范围的示意图。具体实施例方式以下参看附图详细描述本专利技术的特定示范性实施例。图1为绘示根据本专利技术示范性实施例的图像处理装置的构造实例的方框图。图1中,文档输入单元1(document input unit)输入位图格式(bitmap format)的电子化文档数据。文档输入单元1例如包含图像扫描仪,用以光学性地扫描纸文档上的图像,并将经扫描的图像转换(电子化)为文档数据;或是一输入接口(input interface),通过电缆而获取从图像扫描仪输出的文档数据。这里假定文档数据单元的原始纸文档包含有标记的部分。例如,通过用本身含有半透明荧光墨水的荧光记号笔或行标记笔在文档中填充将要登记为属性信息的字符串来执行标记。可采用多种颜色作为荧光墨水的颜色,例如黄色、淡蓝色、粉红色、桔黄色、黄绿色、蓝色、红色和绿色。只要纸文档是黑白印刷的,那么任何颜色都可用于标记,但考虑到字符的可读性最好使用淡颜色(例如黄色、淡蓝色和粉红色)而不是深颜色。对于彩色印刷的文档,可采用与彩色印刷的纸张上呈现的颜色不同的颜色进行标记。字符辨识单元2(character recognizing unit)使用从文档输入单元1输入的文档数据来辨识包含在文档数据中的字符。字符位置检测单元3(character position detecting unit)检测由字符辨识单元2所辨识的字符的位置。字符串位置识别单元4(position-of-string identifying unit)将以字符辨识单元2所辨识的字符而表示的文本划分为词形式的字符串(stringsin words),并基于字符位置检测单元3所检测到的字符的位置信息来识别每一字符串的位置。标记像素提取单元5(mark pixel extracting unit)提取一像素,该像素表示从文档输入单元1输入的文档数据的文档中给定的标记(下文中可称为“标记像素”)。根据文档中给定的标记的颜色而在标记像素提取单元5中定义将要提取的像素的颜色信息。例如,在用于标记的荧光墨水的颜色为黄色时,通过根据荧光墨水的黄色的颜色信息而在其中定义将要提取的像素的颜色信息。当文档中使用多种颜色进行标记时,将标记颜色定义为将要提取的像素的颜色信息,且每种标记颜色与关于文档登记的属性信息可映射。例如,当黄色、粉红色和淡蓝色为标记颜色时,在用颜色标记的字符串与各种类型的属性信息(例如,用于文档查找的关键字、文档的文件名、创建日期和创建者)之间定义对应关系。连接像素区提取单元6(connected pixel area extracting unit)在标记像素提取单元5所提取的标记像素中确定相互连接的标记像素作为“连接像素(connected pixels)”,并提取属于一个连接组的多个(或许多)连接像素所占据的像素区作为连接像素区。方位识别单元7(orientationidentifying unit)识别文档中给定的标记的方位。标记末端识别单元8(end-of-mark identifying unit)基于方位识别单元7所识别的标记的方位和连接像素区提取单元6所提取的连接像素区的范围,而识别一标记的开端和末端。标记范围识别单元9(range-of-mark identifying unit)基于标记末端识别单元8所识别的标记的开端和末端并依据字符串方位来识别标记的范围。字符串提取单元10(string extracting unit)基于字符串位置识别单元4所识别的字符串的位置和标记范围识别单元9所识别的标记的范围来提取经受标记的字符串。文档登记单元11(document registering unit)向数据库单元12(database unit)登记从文档输入单元1输入的文档数据,在登记文档数据时,并向数据库单元12登记字符串提取单元10所提取的字符串以作为文档数据的属性信息。数据库单元12可为大容量数据存储器件,例如硬盘。上述各组件中的字符辨识单元2、字符位置检测单元3和字符串位置识别单元4是包含在本专利技术的一目的中的“第一识别单元(first identifyingunit)”内,亦即,通过使用文档输入单元1所输入的文档数据来识别文档中包含的字符串位置的单元(unit)。标记像素提取单元5、连接像素区提取单元6、方位识别单元7、标记末端识别单元8和标记范围识别单元9包含在本专利技术的一目的中的“第二识别单元(second identifying unit)”内,亦即,通过使用文档输入单元1所输入的文档数据来识别文档中藉由字符串方位所给定标记的范围的单元。随后,将参看图2中的流程图来描述应用根据本专利技术的示范性实施例的图像处理装置的图像处理方法。此图像处理方法的实施方式,其是将存储在ROM(Read Only Memory,只读存储器)或硬盘中的图像处理程序(image processing program)通过CPU(Central Processing Unit,中央处理单元)调用到RAM(Read Access Memory,随机存取存储器)并执行。图像处理程序可预先安装在图像处理装置中、或可存储并提供于例如CD-ROM、MO和DVD等计算机可读媒介中。或者,可在不使用记录媒介的情况下以有线或无线方式通过通信网络来提供图像处理程序。首先,从文档输入单元1输入文档数据(步骤S1)。可通过抓取经由已预先标记的纸文档上图像的光学扫描所产生的文档数据来输入文档数据。随后,经由进行步骤(proceeding step)而输入的文档数据,其被用以执行定位文档中所包含的字符串(步骤S2)的处理以及识别文档中给定标记的范围(步骤S3)的处理。步骤S2中的处理和步骤S3本文档来自技高网...

【技术保护点】
一种图像处理装置,其特征在于包括:文档输入单元,其输入文档的文档数据;第一识别单元,其识别所述文档中包含的字符串的位置;第二识别单元,其基于所述字符串的方位来识别所述文档中给定的标记的范围;以及字符串提取单元 ,其根据所述第一识别单元所识别的所述字符串的所述位置和所述第二识别单元所识别的所述标记的所述范围来提取被给定所述标记的字符串。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:加藤雅弘
申请(专利权)人:富士施乐株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1