原稿提取方法和原稿提取装置制造方法及图纸

技术编号:2924775 阅读:158 留言:0更新日期:2012-04-11 18:40
存储与原稿中包含的各页对应的原稿数据,进而将表示原稿数据的特征的特征数据以及表示原稿的原稿索引与原稿数据相关联。原稿提取装置取得输入原稿数据,从输入原稿数据计算特征数据,基于特征数据判定与原稿数据的类似度,取得与输入原稿数据类似的原稿数据相关联的原稿索引,并提取与原稿索引相关联的多个原稿数据。在多页中提取原稿有关的原稿数据,所述原稿包含对应于与输入原稿数据类似的原稿数据的页。

【技术实现步骤摘要】

本专利技术涉及从原稿的数据库中检索特定的原稿的技术,更详细地说,涉 及基于由扫描仪读取原稿后的图像等原稿数据,从数据库中检索与读取了的 原稿对应的原稿数据的原稿提取方法和原稿提取装置
技术介绍
以往,利用将使用扫描仪读取文本或照片等构成的原稿而得的数据,或 使用个人计算机(PC)等电子式生成的原稿数据存储在数据库中,新读取原 稿,并从数据库中提取与读取了的原稿对应的原稿数据的技术。作为提取原稿数据的方法,例如提出使用OCR ( Optical Character Reader,光学字符识别) 从读取的原稿中提取关键字(keyword)并基于关键字判定原稿的类似度的方 法、将原稿限定于有格线的票据原稿并提取格线的特征来判定原稿的类似度 的方法等。在(日本)特开平7-282088号公报中,公开了将对原稿(文本)赋予特 征的描述符(descriptor)和由描述符赋予特征的原稿的列表相关联,从读取 了的原稿(输入文本)生成描述符,并使用生成了的描述符进行原稿的核对 的技术。原稿的描述符被规定为相对于伴随原稿的读取而产生的失真等不变。 对一个原稿生成多个描述符,对与从读取了的原稿生成的描述符分别相关联 的原稿进行投票,选择得到最高得票数的原稿或得票数超过规定的阈值的原牙咼。特开平5-37748号公报中公开了预先存储原稿的图像数据,在读取的原 稿的位图数据(bitmap data)和预先存储的原稿的位图数据之间,以1比特为 单位进行图形匹配,从而进行原稿的检索的技术。此外,特开平5-37748号 公报中,记载了在由多页构成的原稿的情况下,也可以为检索用而仅读取封 面的页,通过对读取的页的图像数据和存储的各原稿的第一页的图像数据进 行比较,从而纟全索原稿。在特开2006-31181号公报中,公开了预先存储文本图像,对读取的原稿图像的特征量和存储的文本图像的全部页的特征量进行比较,从而求类似度, 提取类似度比阔值高的文本图像,从而检索文本图像的技术。在该技术中, 在多个文本图像成为候选的情况下,显示文本图像从而接受用户选择,而且 在文本图像中包含的页的类似度的平均低于阈值的情况下,将该文本图像从 候选中删除从而缩小范围。通常,文本等原稿由多页构成的情况较多。以特开平7-282088号公报所 公开的技术为首的以往的技术能够进行与扫描仪所读取的原稿的核对从而从 数据库中提取所需的原稿数据,但对于由多页构成的原稿需要对每页进行核 对从而提取原稿数据。从而,在因丢失或污浊等而在核对基础的原稿中产生 了缺失的情况下,存在不能在全部页中提取由多页构成的原稿相关的原稿数 据的问题。在特开平7-282088号公报中关于该问题的解决手段没有任何公开。而且如特开平5-37748号公报中记载的这样的对由多页构成的原稿的位 图数据进行比较的技术中,由于对每页进行比较,所以存在原稿中包含的页 数和原稿数越多,则比较处理越花费时间的问题。此外,在进行位图数据的 比较的情况下,需要高精度地进行比较的两个图像数据的定位。但是,实际 上难以准确地进行定位,其结果,存在难以高精度地^r索原稿的问题。此外,在特开2006-31181号公报所记载的技术中,作为文本图像的字符 区域中的特征量,由于使用OCR提取字符码,所以根据提取的字符码,产生 类似判定的精度降低的问题。为了弥补该精度降低,考虑提取多个字符码, 但在该情况下,存在存储字符码的存储器容量增大,而且由于使用很多数据 进行检索,所以处理消耗时间的问题。此外,.在特开平5-37748号公报和特 开2006-31181号公报中,由于没有考虑包含秘密信息的原稿被检索的情况, 所以存在包含秘密信息的原稿被容易地输出的担心。
技术实现思路
本专利技术鉴于这样的情况而完成,其目的在于提供一种通过使得基于原稿 的 一部分也能够提取原稿的其它部分的数据,从而能够容易地从数据库中提 取与由多页构成的原稿相关的原稿数据的原稿提取方法和原稿提取装置。本专利技术的其它目的在于提供一种在提取原稿数据时,能够避免错误地提 取与目的不同的原稿数据的情况的原稿提取方法和原稿提取装置。此外本专利技术的其它目的在于通过规定用于输出原稿的条件从而能够保护 秘密信息的原稿4是取方法和原稿提取装置。本专利技术的原稿提取装置包括用于存储原稿数据的原稿存储部件,从原稿存储单元所存储的原稿数据中提取特定的原稿数据,其特征在于,包括将表示由多页构成的原稿的原稿索引与对应于包含在原稿中的各页的原稿数据相关联地存储的部件;特征数据存储部件,将基于从原稿数据中提取的特征点计算的、表示所述原稿数据的特征的特征数据与原稿数据相关联地存储;取得部件,取得作为新的原稿数据的输入原稿数据;从取得部件所取得了的输入原稿数据中提取特征点的部件;生成部件,基于该部件所提取出的特征点生成表示输入原稿数据的特征的特征数据;判定部件,通过将生成部件所生成了的特征数据和特征数据存储单元所存储的特征数据进行比较,从而判 定与特征数据存储单元所存储的特征数据相关联的原稿数据和输入原稿数据的类似度;取得与被判定部件判定为是与输入原稿数据的类似度高的原稿数 据的原稿数据相关联的原稿索引的部件;以及提取部件,提取与该部件所取 得了的原稿索引所表示的原稿中包含的多页对应的多个原稿数据。在本专利技术中,预先存储与原稿中包含的各页对应的原稿数据,进而将基 于从原稿数据中提取的特征点计算的、表示原稿数据的特征的特征数据,和 表示原稿的原稿索引与原稿数据相关联地存储。原稿提取装置在取得了输入 原稿数据的情况下,从输入原稿数据生成特征数据,基于特征数据判定与原 稿数据的类似度,取得与输入原稿数据的类似度高的原稿数据相关联的原稿 索引,提取与取得了的原稿索引相关联的多个原稿数据。由此,包含与被判 定为类似于输入原稿数据的原稿数据对应的页的原稿被确定,而且与被确定 了的原稿中包含的全部页对应的原稿数据被提取。本专利技术中,基于对应于由多页构成的原稿的一部分的输入原稿数据,能 够提取与原稿的全部页对应的原稿数据。从而,即使在由多页构成的原稿中 因丟失或污染等而产生了缺失的情况下,也能够从预先存储了原稿数据的数 据库中容易地提取全部页中的原稿数据。本专利技术的原稿提取装置中,特征数据存储部件构成为与一个原稿数据相 关联地存储表示该原稿数据的特征的多个特征数据,生成部件被构成为生成 表示输入原稿数据的特征的多个特征数据,判定部件具有对于生成部件所 生成了的多个特征数据的每一个,对与该特征数据一致的特征数据相关联的 原稿数据进行投票的部件;以及将原稿存储部件所存储的原稿的数据内、得票数最大的原稿数据或得票数为规定量以上的原稿数据判断为与输入原稿数 据的类似度高的原稿数据的部件。本专利技术中,原稿提取装置为了判定原稿数据的类似度,对一个原稿数据 预先存储多个特征数据,对输入原稿数据生成的每个特征数据,对同一特征 数据相关联的原稿数据进行投票,并将得到最大得票数或规定量以上的得票 数的原稿数据作为与输入原稿数据的类似度高的原稿数据。由于将多个特征 数据内多个特征数据一致的原稿数据判定为类似度高,所以能够进行更精确 的类似度判定。在进行原稿数据的类似度判定时,由于能够基于多个特征数 据进行更精确的类似度判定,所以能够抑制将不类似于输入本文档来自技高网
...

【技术保护点】
一种原稿提取方法,从存储的原稿数据中提取特定的原稿数据,其特征在于,具有: 将表示由多页构成的原稿的原稿索引与对应于包含在所述原稿中的各页的原稿数据相关联地存储的步骤; 将基于从原稿数据中提取的特征点计算的、表示所述原稿数据的特征的特征数据,与所述原稿数据相关联地存储的步骤; 取得作为新的原稿数据的输入原稿数据的步骤; 从取得了的输入原稿数据中提取特征点的步骤; 基于提取出的特征点生成表示输入原稿数据的特征的特征数据的步骤; 通过将生成了的特征数据和存储的特征数据进行比较,从而判定与存储的特征数据相关联的原稿数据和输入原稿数据的类似度的步骤; 取得与被判定为是与输入原稿数据的类似度高的原稿数据的原稿数据相关联的原稿索引的步骤;以及 提取与取得了的原稿索引所表示的原稿中包含的多页对应的多个原稿数据的步骤。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:广畑仁志
申请(专利权)人:夏普株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利