搜索文档的文档处理装置及其控制方法制造方法及图纸

技术编号:2855098 阅读:147 留言:0更新日期:2012-04-11 18:40
一种搜索文档的文档处理装置及其控制方法,能够快速和准确地找到待搜索的对象。根据多个搜索引擎的每一个,将目标文档分割成多个文本块。根据每一搜索引擎,基于包括在每一文本块中的字符串,来创建目标文档的索引。

【技术实现步骤摘要】

本专利技术涉及一种搜索文档的文档处理装置、其控制方法、执行该方法的程序、以及存储该程序的存储介质,尤其涉及一种基于多个搜索方法搜索文档的文档处理装置、其控制方法、执行该方法的程序、以及存储该程序的存储介质。
技术介绍
作为用于搜索所期望的文档(文档数据)的基本搜索方法,传统上已知的有基于关键词的搜索,其基于给定的一个关键词或多个关键词(搜索查询)是否包含在文档中进行搜索。然而,通过基于关键词的搜索,难以迅速找到所期望的文档。因此,已专利技术了各种其它的搜索方法和搜索引擎。所专利技术的用于搜索所期望的文档的搜索引擎包括使用关键词之间的关系或语法信息的相似度的搜索引擎;以及使用表现文档内容特征的文档矢量的搜索引擎。作为使用文档矢量的搜索引擎,已提出了一种搜索引擎,其根据与通过文档内容的含义、领域或单词分类的各维度(分类)相对应的特征量,采用矢量表示方法,以通过使用各文档间的矢量的内积(标量积)来判定文档之间的相似度,并基于该相似度找到所期望的文档。此外,已提出一种文档搜索装置,其具有使用安装在其中的各种搜索方法的多个搜索引擎,通过切换多个搜索引擎进行搜索,并/或基于多个搜索引擎的搜索结果进行全面的搜索。此外,已提出一种搜索方法,其将给定的关键词分成每个具有n个字符的部分字符串,并搜索包括所有部分字符串的文档,从而缩窄搜索的范围(参见日本特开平05-174064)。另外,已提出了一种技术,其对来自有布局信息的文档的每对文本块,将第一文本块的最后一个句子和可能是第一文本块最后一个句子的延续部分的第二文本块的头一个(第一个)句子合并为合并的字符串,对所合并的字符串进行词素(morphological)分析,评价所合并的字符串的自然性,从而以判定文本块最自然的连接顺序,并根据所判定的顺序重新排列文本块(参见日本特开平11-015826)。然而,根据以上提出的基于多个搜索方法进行文档搜索的文档搜索装置,尽管可被高效和准确地找到的文档(文档内容、文档种类等)根据各搜索引擎或搜索方法而变化,但无论使用哪种搜索引擎或方法进行搜索,都是基于将整个文档作为搜索的单个对象来创建搜索索引。因此,当搜索对象为包含多个主题的文档时,通过从作为搜索的单个对象的整个文档所创建的索引,传统的基于文档矢量的搜索引擎不能准确地找到该对象。此外,传统的基于关键词、基于关键词关系和基于语法信息的搜索引擎都不能快速找到包含大量信息的文档。
技术实现思路
因此,本专利技术的目的在于提供一种能够快速和准确地找到搜索的对象的文档处理装置及其控制方法,以及执行该方法的程序,和存储该程序的存储介质。为达到以上目的,在本专利技术的第一方面,提供一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括分割单元,其根据多个搜索方法中的每个搜索方法将目标文档分割成多个块;以及创建单元,其根据每一搜索方法,基于包括在由所述分割单元获得的每一块中的字符串,来创建目标文档的索引。通过以上装置,在使用多个搜索方法进行文档搜索的环境下,可快速和准确地进行文档搜索。优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,所述分割单元根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,所述分割单元根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,所述分割单元根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。为达到以上目的,在本专利技术的第二方面,提供一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括分割单元,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建单元,其基于包括在由所述分割单元获得的每一块中的字符串,来创建用于搜索的查询。通过以上装置,在使用多个搜索方法进行文档搜索的环境下,可快速和准确地进行文档搜索。优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,所述分割单元根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,所述分割单元根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,所述分割单元根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。为达到以上目的,在本专利技术的第三方面,提供一种文档处理装置的控制方法,用于根据多个搜索方法搜索文档,该控制方法包括分割步骤,其根据多个搜索方法中的每个搜索方法,将目标文档分割成多个块;以及创建步骤,其根据每一搜索方法,基于包括在由所述分割步骤获得的每一块中的字符串,来创建目标文档的索引。优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,在所述分割步骤中,根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,在所述分割步骤中,根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,在所述分割步骤中,根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。为达到以上目的,在本专利技术的第四方面,提供一种文档处理装置的控制方法,用于根据多个搜索方法搜索文档,该控制方法包括分割步骤,其根据多个搜索方法中的每个搜索方法,将包括在从其中创建用于搜索的查询的文档中的字符串分割成多个块;以及创建步骤,其基于包括在由所述分割步骤获得的每一块中的字符串,来创建用于搜索的查询。优选地,该多个搜索方法包括第一搜索方法,该第一搜索方法基于包括在字符串中的单词间的关系搜索文档,其中,在所述分割步骤中,根据该第一搜索方法,将字符串分割成文本块,每一文本块形成一个句子。更优选地,该多个搜索方法包括第二搜索方法,该第二搜索方法基于包括在字符串中的单词的概念搜索文档,其中,在所述分割步骤中,根据该第二搜索方法,以比第一搜索方法大的单位,将字符串分割成文本块。还有更优选地,该多个搜索方法包括第三搜索方法,该第三搜索方法基于字符串中是否出现至少一个单词搜索文档,其中,在所述分割步骤中,根据该第三搜索方法,以比第二搜索方法大的单位,将字符串分割成文本块。为达到以上目的,在本专利技术的第五方面,提供一种程序,用来使计算机执行根据多个搜索方法搜索文档的文档处理装置的控制方法,该程序包括分割模块,其根据多个搜索方法中的每个搜索方法,将目标文档分割成多个块;以及创建模块,其根据每一搜索方法,基于包括在由所述分割模块获得的每一块中的字符串,来创本文档来自技高网
...

【技术保护点】
一种文档处理装置,用来根据多个搜索方法搜索文档,该装置包括:分割单元,其根据多个搜索方法中的每个搜索方法将目标文档分割成多个块;以及创建单元,其根据每一搜索方法,基于包括在由所述分割单元获得的每一块中的字符串,来创建目标文档 的索引。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:工藤朋纪
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1