文件媒体处理方法技术

技术编号:2932777 阅读:161 留言:0更新日期:2012-04-11 18:40
一种适用于例如金融机构中处理文件的数据媒体处理装置和数据媒体处理方法。用于基于从其上的信息以任意格式描述的数据媒体读取的图象(19)而识别信息的数据媒体处理装置(30)的结构为,它包括装置(2)用于从读取的图象数据(19)抽取包含格式的数据媒体所唯有的特征并从这些特征确定要被识别的信息所出现的位置,以及图象识别装置(3)用于识别由前面的装置(2)所确定的位置处的图象(19)以鉴别信息,使得数据媒体处理装置(30)能够处理具有诸如私人票据等各种格式的文件。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及媒体处理装置及涉及例如适用于金融机构文件处理的数据媒体处理方法,并特别涉及进行对诸如个人文件等具有各种格式的文件的处理的。
技术介绍
近年来,作为阅读当作图象数据(一个图象)的字符信息并然后识别字符的装置,诸如光学字符阅读装置(OCR装置)得到发展,并在各种行业中,广泛使用图象数据阅读装置以便达到业务上效率的扩充等。例如,在金融机构等的窗口操作的操作者通过使用上述图象数据阅读装置有效处理文件媒体(多个文件)而达到业务的扩充。特别,为了在进行上述这种文件处理的业务中有效达到扩充,不仅需要同类型的文件媒体(专用于识别处理的媒体),而且还需要自动地处理具有不同格式的文件媒体。这样,使用图象数据阅读装置的文件媒体的处理能够通过使用例如图115所示的文件处理装置对于多种文件媒体进行。特别,参照图115,标号1001表示用于阅读文件的图象数据的图象数据阅读装置。图象数据阅读装置1001连接到计算机1002使得它能够在计算机1002的控制下进行图象数据的阅读操作。可注意的是,例如图象扫描器或者传真机用作为图象数据阅读装置1001。同时,计算机1002作为用于控制图象数据阅读装置1001的控制装置由诸如键盘或者鼠标(图115中只示出键盘)用于从操作者输入指令、数据等的输入单元1002-1,计算机主机1002-2,及用于显示数据、控制信息等显示单元1002-3组成。可注意到,由图象数据阅读装置1001所阅读的图象数据的字符识别处理是由计算机主机1002-2进行的。进而,标号硬盘1003表示一个硬盘。硬盘1003连接到计算机1002并预先存储信息(下面称为“定义对象的信息”)1003A到1003C,...,该信息对于例如图116所示的每一种类的文件,指定要被识别的字符数据的位置信息,及字符的类型,数目等等。可注意的是,能够使用如图116或117所示的图象数据阅读和识别装置1005替代上述的图象数据阅读装置1001。图象数据阅读和识别装置1005能够进行类似于图象数据阅读装置1001的图象数据阅读操作以及字符识别。为了使用图象数据阅读和识别装置1005识别出现在例如图116所示的电费付款通知单1004上的字符数据,通过操作者操作键盘1002-1指定文件类型(这种情形下,定义对象信息1003B对应于电费付款通知单1004(文件B))。然后,计算机1002访问硬盘1003取得被指定的文件的定义对象信息1003B,并向图象数据阅读和识别装置1005报告该定义对象信息1003B。继而,图象数据阅读和识别装置1005能够基于作为来自计算机1002的控制信息的定义对象信息1003B实现图象数据的阅读和字符识别的处理。可是,在处理诸如参照图116上述的文件的过程中,由于定义对象信息是对每一要阅读的文件通过操作者的指定而被指定的,故加重了操作者的负担,并且此外,当定义对象在数量上增加时,可能出现指定的错误。在需要处理数千种文件的地方,对于操作者指定一个定义对象实际上是困难的。因而,此间如图117所示还提出另一方法,在文件1004规定的位置处1004a记录用于标识一个文件以便同任何其它文件相区别的ID号码(这种情形下是′0102′),使得文件的阅读处理能够自动地进行而无需如上述那样由操作者指定文件类型。由刚才所述的方法,当文件的图象数据要由图象数据阅读和识别装置1005阅读时,可通过首先识别在预定位置1004a所记录的ID号码,然后使用对应于所识别的ID号码的定义对象信息(这种情形下为1003B)实现字符的识别。然而在要阅读图象数据时,如果在诸如图象数据阅读装置1001或者图象数据阅读和识别装置1005等光学阅读装置中(例如文件处理装置)文件等所放置的位置错位时,或甚至例如阅读与其定义对象信息预先存储在硬盘1003中的文件相同的文件,则由于字符数据区域,即字形等等区域对参照点(物理原点)的图象坐标不表现为与定义对象信息的图象相同的坐标,而在文件处理装置中等判断布局彼此不同。在文件处理装置等中,除非在彼此调整了所阅读图象数据的布局和定义对象信息的布局之后进行图象数据的字符识别,否则有时不能正规地进行字符识别处理。因而,各个图象的参照点被提取,并且各个图象对该参照点的坐标彼此进行比较以实现布局之间的重合的鉴别。这里,主要使用以下两者方法取得图象数据的参照点。要注意的是,作为先决条件,供阅读的对象文件是事先打印的文件并且文件在表格上的打印位置以高度精确管理。根据第一方法,当文件的图象数据由图象数据阅读装置阅读时,表格端边缘1006的左上转角位置P确定为参照点,该装置中如图118(a)所示,被阅读的文件的表格端边缘1006与阅读背景1007能够彼此识别开。根据第二方法,当文件的图象数据要由图象扫描器或者传真机阅读时,由于阅读背景1009与被阅读的表格端边缘1008如在图118(b)所见不能彼此识别开,故在对象文件表格上打印一个参照标号R供预先阅读,并且从图象数据抽取这个标号R且被判断为参照点。第二个方法优点在于,由于参照点位置是作为参照标号R预先打印的,故即使在阅读装置中文件所放置的位置移动,参照点也能够被稳定地抽取。然而,在文件处理装置等中,即使通过上述方法精确抽取了参照点,如果图象数据的阅读方向不是正确的方向,则图象数据的字符说明方向也不是正确的方向,因而字符识别处理不能进行。例如如图119中所示,如果其上的信息是在水平方向所述一转帐票具(文件C)1010在错误的方向(在图119中垂直方向)上被阅读,则这样所阅读的转帐票具1010的图象数据是在错误的方向上显示的,如显示单元1002-3上参照符号1010A所示。因而,由文件处理装置等进行字符识别处理时,操作者必须目视观察显示单元1002-3以判断文件阅读方向是否正确,并当文件的阅读方向不正确时,从键盘1002-1输入指令以便旋转所阅读的文件图象数据90度或180度,使得实现图象数据的旋转校正处理,以便文件的图象数据能够在如显示单元1002-3上由参照符号1010B标记的正确方向上显示。顺便来说,在通常向银行帐户汇付工作中,操作者输入在文件上所述的帐户号码、姓名、款的数量等等信息,该文件是来自文件处理装置1000的键盘1002-1等的一个汇付请求票具。这时,操作者目视地交替观察文件及显示单元1002-3以便进行输入操作。然而,在文件和显示单元1002-3目视被交替地观察以便按这样的方式进行输入操作的地方,由于涉及到操作者眼睛很多的运动,故问题在于目视可辨别性变坏并且有可能文件的条目和屏幕上的条目之间的匹配被搞错。于是,又一种文件处理装置已经提出,其中文件由图象数据阅读装置1001等阅读,并且所阅读的图象数据本身与图象数据字符识别的结果一同显示在显示单元1002-3上。使用文件处理装置,由于文件上描述的信息能够直接在显示单元1002-3上目视观察到,故可减少眼睛的运动,因而在对字符识别结果的确认和修改时能够减少字符识别的结果和图象数据之间匹配的差错。同时,近年来,通过使用客户机-服务器系统的服务器以高速度集中方式进行数据处理的方法主要在金融机构等采用。例如,提出把对于金融机构的每一个银行(业务办公室)安装的客户机与安装在地区中心的服务器通过专线或交换线互联而构成一个客本文档来自技高网...

【技术保护点】
一种数据媒体处理方法,用于基于从在其上以任意格式描述信息的数据媒体中读取的图象(19)识别信息,其特征在于    从读取的图象数据(19)抽取包含该格式的数据媒体所独有的特征并然后进行压缩处理,以及    使用该压缩处理的特征作为限制检索项检索存储在存储部分(14)中的参照压缩信息以便比较是否存在相符的参照压缩信息,此后    基于比较的结果识别指定位置处的图象以便鉴别信息。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:江口真一胜又裕千叶亘一松野秀树永野义博牛田和秀镰田英夫松桥智浩稲岡秀行渡部英一直井聪坂根俊司小原胜利山本一范渡边和人木嶋顺之山崎芳則町田泰孝
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利