原稿提取方法和原稿提取装置制造方法及图纸

技术编号：2924775 阅读：158 留言：0更新日期：2012-04-11 18:40

存储与原稿中包含的各页对应的原稿数据，进而将表示原稿数据的特征的特征数据以及表示原稿的原稿索引与原稿数据相关联。原稿提取装置取得输入原稿数据，从输入原稿数据计算特征数据，基于特征数据判定与原稿数据的类似度，取得与输入原稿数据类似的原稿数据相关联的原稿索引，并提取与原稿索引相关联的多个原稿数据。在多页中提取原稿有关的原稿数据，所述原稿包含对应于与输入原稿数据类似的原稿数据的页。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及从原稿的数据库中检索特定的原稿的技术，更详细地说，涉及基于由扫描仪读取原稿后的图像等原稿数据，从数据库中检索与读取了的原稿对应的原稿数据的原稿提取方法和原稿提取装置。
技术介绍
以往，利用将使用扫描仪读取文本或照片等构成的原稿而得的数据，或使用个人计算机(PC)等电子式生成的原稿数据存储在数据库中，新读取原稿，并从数据库中提取与读取了的原稿对应的原稿数据的技术。作为提取原稿数据的方法，例如提出使用OCR ( Optical Character Reader,光学字符识别) 从读取的原稿中提取关键字(keyword)并基于关键字判定原稿的类似度的方法、将原稿限定于有格线的票据原稿并提取格线的特征来判定原稿的类似度的方法等。在(日本)特开平7-282088号公报中，公开了将对原稿(文本)赋予特征的描述符(descriptor)和由描述符赋予特征的原稿的列表相关联，从读取了的原稿(输入文本)生成描述符，并使用生成了的描述符进行原稿的核对的技术。原稿的描述符被规定为相对于伴随原稿的读取而产生的失真等不变。对一个原稿生成多个描述符，对与从读取了的原稿生成的描述符分别相关联的原稿进行投票，选择得到最高得票数的原稿或得票数超过规定的阈值的原牙咼。特开平5-37748号公报中公开了预先存储原稿的图像数据，在读取的原稿的位图数据(bitmap data)和预先存储的原稿的位图数据之间，以1比特为单位进行图形匹配，从而进行原稿的检索的技术。此外，特开平5-37748号公报中，记载了在由多页构成的原稿的情况下，也可以为检索用而仅读取封...

【技术保护点】
一种原稿提取方法，从存储的原稿数据中提取特定的原稿数据，其特征在于，具有：　将表示由多页构成的原稿的原稿索引与对应于包含在所述原稿中的各页的原稿数据相关联地存储的步骤；　将基于从原稿数据中提取的特征点计算的、表示所述原稿数据的特征的特征数据，与所述原稿数据相关联地存储的步骤；　取得作为新的原稿数据的输入原稿数据的步骤；　从取得了的输入原稿数据中提取特征点的步骤；　基于提取出的特征点生成表示输入原稿数据的特征的特征数据的步骤；　通过将生成了的特征数据和存储的特征数据进行比较，从而判定与存储的特征数据相关联的原稿数据和输入原稿数据的类似度的步骤；　取得与被判定为是与输入原稿数据的类似度高的原稿数据的原稿数据相关联的原稿索引的步骤；以及　提取与取得了的原稿索引所表示的原稿中包含的多页对应的多个原稿数据的步骤。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：广畑仁志，
申请(专利权)人：夏普株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人