基于内容图像的文档检索方法以及装置制造方法及图纸

技术编号:2852848 阅读:190 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供基于内容图像的文档检索方法以及装置。以往的文档检索方法为了斟酌内容需要一次读取文档,至今为止不能够实现内容的一览性,为此,虽然有预先生成概要图像的方法,然而在其生成中非常花费时间或者成本,另外因为存在在监视器的一个画面上难以显示检索的全部文档的概要图像等理由,所以不能够完全解决问题,本发明专利技术把文档置换为一览性高的图像,即,把文档内的照片、图、表等图像作为其文档的键图像,输入使用了其键图像的一个或者多个检索逻辑式,在显示画面内三维地显示所有包含满足检索逻辑式的类似图像的文档内的图像,而且检索者如果选择显示了的键图像,则显示包括其键图像的文档内容。

【技术实现步骤摘要】

本专利技术涉及使用文字处理的图像检索文档的方法及其装置。特别涉及文档的有效的检索方法及其装置,在这里所述的文档还包括构筑在WWW上的Web文档。另外,所谓图像包括照片、画面、图表、表格、曲线图、符号等在文档中出现的各种内容。
技术介绍
以往,在特定领域,例如专利或者医疗领域等中,对过去的文档例进行检索从专利的新颖性检查或者类似病例的检查等的观点出发是必不可少的,当前正在积极研究开发。另一方面,最近,正在开发用于从网络等的基础设施完备的互联网或者内部网得到个人所需要的信息的检索技术或者软件。至今为止的检索技术的主流主要是假定存在关键词。即,预先抽取出文档文本内的多个文件关键词或者文档图像的标题内的关键词,预先把该关键词与文档相对应存储。而且,在检索时,使用其所存储的对应,根据所提供的关键词抽取出认为是类似的内容的文档(特开2000-067066「文档图像管理方法、文档图像检索方法、文档图像管理系统以及存储媒体」)。以上说明的文档检索方法通常大多是根据多个关键词的检索频率等进行类似度计算,按照其值的顺序显示文档名或者Web文档的URL。在这种情况下,需要一个一个地打开文档的文件,检查是否是希望对内容进行斟酌的文档,其工时非常大。即,在文档检索中,为了斟酌内容需要一次读入文档,目前为止不能实现内容的一览性。因此,例如,在特开平5-216936「文档存储/检索方法」中,还考虑预先存储表示文档概要的概要图像,通过显示与文档信息(关键词)等中的检索条件一致的文档的概要图像,减少其工时,实现有效作业的方法。另一方面,在图像检索中,有预先用人工把关键词加入到图像上的方法,或者从图像进行颜色或形状的特征抽取,按照其特征检索类似图像的方法。如以上所说明的那样,以往的文档检索方法通常大多是根据多个关键词的检索频率等进行类似度计算,按照其值的顺序显示检索出的文档名或者Web文档的URL。在这种情况下,需要一个一个地打开文档的文件,检查是否是希望对内容进行斟酌的文档。其工时非常大。即,在文档检索中为了斟酌内容需要一次读入文档,目前为止不能够实现内容的一览性。为此,虽然也有特开05-216936那样的预先生成概要图像的方法,然而,在其生成需要花费大量的时间或者成本,或者难以在监视器的一个画面上显示检索的所有文档的概要图像等理由下,不能够完全地解决问题。进而,在一般的关键词中,常常并不能够有效地检索所需要的文档。这是因为一般仅按照文档内的关键词的频率,常常难以正确地近似其内容,因此并不能够仅检测内容类似的文章。
技术实现思路
为了解决这样的课题,在本专利技术中,首先把文档置换为一览性高的图像。即,把文档类的照片、图、表等图像作为该文档的键图像。输入使用了一个或者多个该键图像的检索逻辑式,在显示画面内例如三维地显示所有包含满足检索逻辑式的类似图像的文档内的图像。而且,如果检索者选择所显示的键图像,则显示包括其键图像的文档内容。本专利技术更具体的方法是在包括图像的文档检索方法中,特征是具有使文档的数据与该文档中的图像的数据相对应的第1步骤;把规定图像指定为键图像的第2步骤;使用上述指定的键图像和运算符设定检索式的第3步骤;显示通过基于上述检索式的检索抽取出的多个图像的第4步骤;从上述显示的图像指定任意图像的第5步骤;显示与上述指定了的图像相对应的文档的第6步骤。另外,在上述第1步骤中,具有在电子文档中通过其代码内容的分析自动地进行对应的步骤;在图像文档中通过图像处理自动地进行对应的步骤。即,在使文档的数据与该文档内的图像的数据相对应时,有文档是电子(HTML等的文本代码等)数据的情况和图像数据(用扫描仪取入的文档等)的情况。在前者的情况下,通过分析文本数据,明确图像数据的存在及其保存位置。另一方面,在图像数据的情况下,通过图像处理,能够分离文字图像和图像数据,明确图像数据的存在及其保存位置。另外,在上述第2步骤中,具有在把应该包含在希望检索的文档中的图像指定为键图像时,用利用了电光元件的扫描仪或者照相机输入并指定该图像的步骤,则能够把任意的图像素作为键。另外,在上述第3步骤中,具有显示表示上述键图像的图标和表示上述运算符的图标的步骤;从上述显示的图标选择构成上述检索式的元素的步骤,则能够简易地生成检索式。另外,在本专利技术的检索方法中,在对象中不仅可以包括与键图像相同的图像,还可以包括与键图像类似的图像,因此能够进行有效的检索。另外,在上述第4步骤中,如果具有把抽取出的多个图像分组,显示各个组的步骤,则能够视觉地把握抽取出的多个图像,很容易选择所希望的图像。这时,还能够从抽取出的图像检测多个特征量,使用它们的距离进行分组。另外,理想的是在由多个特征量的若干个轴构成的空间中显示抽取出的图像。另外,本专利技术的其它方法是在包括图像的文档检索方法中,特征是具有使文档的数据与该文档中的图像的数据相对应的步骤;把规定图像指定为键图像的步骤;从上述图像的数据中抽取出与上述键图像类似的多个图像的步骤;显示上述抽取出的多个图像的步骤;从上述显示的图像指定任意的图像的步骤;显示与上述指定的图像相对应的文档的步骤。作为上述键图像能够指定多个图像。对于键图像的每一个,如果从图像的数据抽取出与键图像类似的图像群,则能够针对每一个键图像抽取由多个图像构成的图像群(组)。还能够显示这些组的逻辑和或逻辑积。为了显示所希望的图像,显示表示多个键图像的图标以及表示逻辑运算符的图标,把所显示的图标组合起来设定检索式,根据检索式能够显示图像,能够提高操作性。作为图像图标,既能够使用图像本身,也能够使用把图像缩小了的图像或者简化了的符号。作为逻辑运算符,能够使用表示逻辑积(AND)的图标以及表示逻辑和(OR)的图标。根据情况,也可以使用(NAND)(NOR)等其它的运算符。把所显示的图标组合起来设定检索式,根据检索式,进行从多个键图像抽取出的多个图像群相互的集合运算,把集合运算的结果显示为抽取出的多个图像。作为显示方法,能够在三维空间中根据各图像具有的特征量显示所抽取的多个图像。本专利技术的装置是在包括图像的文档检索装置中,特征是具有对文档的数据与该文档中的图像的数据的对应关系进行存储的存储装置;把规定图像指定为键图像的键图像指定装置;从上述图像的数据抽取出与上述键图像类似的多个图像的处理装置;显示上述抽取出的多个图像的图像显示装置;从上述显示的图像指定任意图像的图像指定装置;显示与上述指定的图像相对应的文档的文档显示装置。作为存储装置,能够利用硬盘以外的装置。键图像指定装置能够使用用于读入键图像的扫描仪、选择在监视器上显示的图像或者其图标的指示设备。存储装置可以存储文档的数据与文档中的图像的数据的对应关系,不一定需要存储文档数据本身或者图像数据本身。在理想的形态中,保存成为检索键的图像数据(或者其加工数据),对于文档数据自身,通过仅存储其保存位置(访问目标,例如地址),能够减小存储装置的容量。另外,在其它的形态中,在具备输入装置、显示装置、处理装置以及存储装置的文档检索装置,特征是上述存储装置是对文档的数据与该文档中的图像的数据的对应关系进行存储的存储装置,上述处理装置进行控制使得从上述输入装置把规定图像指定为键图像,从上述存储装置抽取出与上述键图像类似的多个图像,在上述显示装置显本文档来自技高网
...

【技术保护点】
一种文档的检索方法,该文档包含图像,其特征在于包括:使文档的数据与该文档中的图像的数据相对应的第1步骤;把规定图像指定为键图像的第2步骤;使用上述指定的键图像和运算符设定检索式的第3步骤;显示通过基于上述检索 式的检索抽取出的多个图像的第4步骤;从上述显示的图像指定任意图像的第5步骤;显示与上述指定了的图像相对应的文档的第6步骤。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:酒匂裕广池敦
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1