类似文件检索辅助装置以及类似文件检索辅助方法制造方法及图纸

技术编号:9143234 阅读:157 留言:0更新日期:2013-09-12 04:44
本发明专利技术提供一种类似文件检索辅助方法及装置,通过向利用者示出影响类似文件检索精度的要因对检索精度的影响程度和关于面向检索精度提高的对策的信息,使利用者的检索作业处理的循环高效地运转,并使检索作业的效率和质量提高。针对过去的输入文件与正确解答文件的对的集合,进行关于上述要因的解析,使要因的值范围与检索精度建立对应并存储于表中。通过计算机处理,对新输入文件进行相同的要因解析,与上述表对照来计算与符合新输入文件的要因值的值范围相应的检索精度。之后,通过计算机处理,向利用者示出检索精度以及/或者相对于过去的输入文件整体的检索精度平均的偏离值。更理想的情况下,也向利用者示出用于提高检索精度的对策信息。

【技术实现步骤摘要】
类似文件检索辅助装置以及类似文件检索辅助方法
本专利技术涉及从大量的文件集合中检索所希望的文件的文件检索装置以及文件检索方法。特别是,本专利技术涉及类似文件检索辅助装置以及类似文件检索辅助方法,其中,从将利用者指定的文章或文件作为检索条件,将与此记载内容类似或关连的文件作为检索对象的文件集合中进行检索,并从类似或关连程度高的文件开始依次输出。
技术介绍
通过互联网等通信网络或PC/便携式电话等硬件的普及和低价格化、CPU的高速化、存储器或硬盘的大容量化/低价格化、检索系统或文件编辑器等软件的高功能化/高性能化等,一般的人们能够容易地访问大量的文件信息。而另一方面,从大量的文件集合中迅速准确且低劳动量地检索/取得所希望的文件却变得困难。作为从大量的文件集合中检索所希望的文件的方式,一般是关键字检索。在关键字检索中,利用者制作由与所希望的文件有关连的一个以上的关键字和表示关键字间的逻辑关系性的逻辑运算符(AND/OR/NOT等)构成的关键字逻辑式。文件检索装置接收来自利用者的逻辑式,从检索对象文件集合中仅检索该逻辑式为真的文件,并向利用者示出。但是,在关键字检索中,经常存在利用者想不到为了将检索结果文件压缩至可阅览的个数,应该制作怎样的关键字逻辑式的情况。此外,优先输出反映了利用者的检索意图的检索结果文件的作法,在精度上来讲也是困难的。而近来,在关键字检索的领域中,从将由利用者输入的任意的文章或指定的任意的文件作为检索条件,从作为检索对象的文件集合中检索与此记载内容类似或关连的文件,从类似或关连程度高的文件开始依次输出的技术普及起来。该技术被称为类似文件检索。另外,该技术也被称为概念检索、自然语言检索、自然语句检索、模糊检索、联想检索。类似文件检索通过以下的处理来实现。首先,从构成作为检索对象的文件集合的各检索对象文件提取表现记载内容的特征的特征词,此后,对各特征词计算/赋予与其重要度相对应的权重,由此,生成由一个以上的加权特征词构成的特征词矢量,并预先存储于检索目录。此外,也通过相同的方法,从利用者所输入的文章或所指定的文件(以下,统称为“输入文件”)提取加权特征词并生成特征词矢量。接着,将通过输入文件所生成的特征矢量与各检索对象文件的特征矢量相对照,计算两者的类似度。特征矢量间的内积或特征矢量成角的余弦值经常被用作类似度的计算。此后,将按降序对类似度进行排序所获得的顺位靠前的文件作为与输入文件类似的文件输出。现有技术文献专利文献专利文献1日本特开2002-230032号公报专利文献2日本特开1995-192020号公报专利文献3日本特开2000-311173号公报专利技术所要解决的课题在类似文件检索中,能够将自己脑中想起的任意文章或手头的文件直接作为检索条件来进行指定,因此,具有无需利用者制作关键字逻辑式的优点。此外,能够从与输入文件的内容类似程度高的文件开始赋予顺位地进行输出,因此,也具有利用者能够迅速找到所希望的文件的优点。但是,在类似文件检索中,通过对照将大量的加权特征词作为要素的特征词矢量,判断输入文件与检索对象文件之间的类似性。因此,所具有的缺点是:利用者很难理解检索依据,即为什么此文件被作为类似文件输出。更具体地讲,在类似文件检索中存在以下所示的4个课题。·课题(1):不能理解输入文件中的哪个特征词为类似文件检索结果的输出做出了何种程度的贡献。·课题(2):不能理解类似文件检索进展顺利的程度。·课题(3):不能理解类似文件检索进展不顺利的情况下,其原因是什么。·课题(4):不能理解类似文件检索进展不顺利的情况下,接下来如何才能获得更好的检索结果。作为与上述课题(1)有关连的技术文献,包括专利文献1以及专利文献2。这些专利文献中所记载的专利技术通过以检索结果和检索中所使用的项目为轴而构成的表或曲线的形态来显示检索结果。在专利文献1中,基于多个判断基准,计算按判断基准的文件适合值,并计算将这些值汇总得到的综合文件适合值。在输出文件检索结果时,将检索结果文件和判断基准作为2轴,输出以按检索结果文件的综合文件适合值以及按判断基准的文件适合值为值的表。通过该表,利用者能够理解哪个判断基准为哪个检索结果文件的输出做出了怎样的贡献。在专利文献2中,对输入文件进行解析,分为多个不同的视点,按视点变换成检索命令,分各视点地计算输入文件与检索对象文件之间的类似度,并将这些综合起来输出检索结果。在输出检查结果时,使用被指定的视点作为轴,二维或三维地显示检索命令与检索结果文件的类似程度。通过该显示,利用者能够理解基于哪个视点被输出了哪个检索结果文件。上述专利文献1以及2中所记载的专利技术使用以检索结果和检索中所使用的项目(视点,判断基准)为轴而构成的表或曲线来显示检索结果,由此来解决上述课题(1)。但是,这些专利技术并未言及解决其他课题(2)、(3)、(4)的结构。例如,关于上述课题(2),为了使利用者能够理解类似文件检索是否进展顺利,需要根据各种要因来解析输入文件与检索对象文件之间的类似性,并以利用者能够按要因评价类似文件检索的优劣的方式提供方案。与该课题(2)有关联的技术文献中包括专利文献3。专利文献3中记载了如下的手法:首先,根据过去的检索结果,按已赋予检索结果文件的分类预先计算与通过类似文件检索所检索到的类似文件的类似度的值范围对应的检索精度;接着,根据对新输入文件的检索结果文件的各类似度以及分类,确定与该分类中的类似度对应的检索精度;此后,将该检索结果文件的类似度的值与该被确定的检索精度的值置换来作为准确度,以准确度由高到低的顺序重排列检索结果并进行显示,由此,提高检索精度。但是,专利文献3中所记载的手法仅基于类似度与检索精度的对应关系,将类似度置换为检索精度,并对检索结果文件的显示顺序进行补正(重排列)。因此,通过专利文献3中所言及的结构,利用者不能理解检索不顺利的要因或基于该要因接下来该做什么。在类似文件检索中,经常要求“检索条件指定→检索执行→把握检索结果的倾向或要因→检索条件修正→再检索”这样的检索作业处理的循环高效地运转,即,使检索作业高效化。该检索作业的高效化需要以下的结构:向利用者示出检索结果,并且还示出关于检索结果的依据/原因/应对方法等的信息,以利用者面对下次检索能够高效且准确地修正检索条件的方式进行辅助。但是,专利文献3中所记载的手法仅限于基于类似度与检索精度的对应关系的检索结果文件的重排列,并未公开把握检索结果的倾向或要因来修正检索条件并进行再检索这样的用于使检索作业处理的循环高效地运转的结构。结果,通过专利文献3中所记载的手法,不能解决上述课题(3)、(4)。此外,专利文献3中所着眼的仅仅是类似度的值本身和检索结果文件所属的分类。但是,定量地表示文件间的类似性的类似度一般是在多个微观要因影响之下所计算的值。作为这里所称的要因的具体例,可列举出:用于检索的输入文件的特征词的质量和数量、检索对象文件的内容/构造/文章量的不均、文件执笔者的异同数或不特定性、检索对象文件中所使用的特征词的质量或不均等。因此,仅通过对类似度本身的值与检索精度之间的关系性进行解析,并不能确定检索进展不顺利的要因。这里的要因确定必须对更微观的要因与检索精度的关系进行解析,很好地识别出使检索精本文档来自技高网...
类似文件检索辅助装置以及类似文件检索辅助方法

【技术保护点】
一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的各教师输入文件对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索目录中的一个以上,提取上述各教师输入文件的要因值,并存储于要因表,上述各教师输入文件的要因值与作为影响类似文件检索精度的要因而被预先定义的各要因相对应;检索精度解析处理步骤,针对存储于上述要因表的、与上述教师文件表内的教师输入文件集合对应的上述要因值,基于与一个要因有关的要因值的分布或与多个要因有关的要因值的分布的组合,将上述教师输入文件集合分割成要因组,根据与属于一个要因组的上述教师输入文件对应的上述正确解答文件的检索顺位计算与该要因组对应的检索精度,并计算上述计算出的检索精度相对于针对上述教师输入文件的整体所 计算出的检索精度平均值之差来作为偏离值,将上述要因组、符合该要因组的上述要因值所能取的范围、上述检索精度、和上述偏离值存储于检索精度表;以及影响度计算处理步骤,将针对上述正确解答文件为未知的新输入文件所获得的上述要因值与存储于上述检索精度表的各要因组的值范围进行对照,由此,提取与满足上述值范围的要因组对应的上述检索精度以及偏离值,并与该新输入文件的上述要因值一同存储于影响度表,在上述检索结果输出处理步骤中,向利用者示出存储在上述影响度表中的与新输入文件对应的上述要因值、以及上述检索精度和/或上述偏离值。...

【技术特征摘要】
2012.02.24 JP 2012-0381631.一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的各教师输入文件对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索目录中的一个以上,提取上述各教师输入文件的要因值,并存储于要因表,上述各教师输入文件的要因值与作为影响类似文件检索精度的要因而被预先定义的各要因相对应;检索精度解析处理步骤,针对存储于上述要因表的、与上述教师文件表内的教师输入文件集合对应的上述要因值,基于与一个要因有关的要因值的分布或与多个要因有关的要因值的分布的组合,将上述教师输入文件集合分割成要因组,根据与属于一个要因组的上述教师输入文件对应的上述正确解答文件的检索顺位计算与该要因组对应的检索精度,并计算上述计算出的检索精度相对于针对上述教师输入文件的整体所计算出的检索精度平均值之差来作为偏离值,将上述要因组、符合该要因组的上述要因值所能取的范围、上述检索精度、和上述偏离值存储于检索精度表;以及影响度计算处理步骤,将针对上述正确解答文件为未知的新输入文件所获得的上述要因值与存储于上述检索精度表的各要因组的值范围进行对照,由此,提取与满足上述值范围的要因组对应的上述检索精度以及偏离值,并与该新输入文件的上述要因值一同存储于影响度表,在上述检索结果输出处理步骤中,向利用者示出存储在上述影响度表中的与新输入文件对应的上述要因值、以及上述检索精度和/或上述偏离值。2.一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的教师输入文件分别对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索目录中的一个以上,提取上述各教师输入文件的要因值,并存储于要因表,上述各教师输入文件的要因值与作为影响类似文件检索精度的要因而被预先定义的各要因相对应;以及影响度计算处理步骤,对于针对上述正确解答文件为未知的新输入文件所获得的上述要因值,确定由满足与一个要因有关的与新输入文件对应的要因值或其附近值的上述教师输入文件、或完全满足与多个要因有关的与新输入文件对应的要因值或其附近值的上述教师输入文件构成的文件群,根据与属于上述文件群的上述教师输入文件对应的上述正确解答文件的检索顺位来计算与该文件群对应的检索精度,并计算上述计算出的检索精度相对于对上述教师输入文件的整体所计算出的检索精度平均值之差来作为偏离值,将上述要因值、上述检索精度以及上述偏离值存储于影响度表,在上述检索结果输出处理步骤中,向利用者示出存储在上述影响度表中的与新输入文件对应的上述要因值、以及上述检索精度和/或上述偏离值。3.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,影响上述类似文件检索精度的要因包含以下所示的(1)~(12)中的至少一个以上:(1)相对于由预先指定的件数构成的各顺位靠前检索结果文件的、输入文件中的各特征词的总命中数或其比例;(2)上述(1)的总命中数中的、输入文件中的特征词在检索结果文件中的权重为预先指定的阈值以上的数量或其比例;(3)上述(1)的总命中数中的、与输入文件中的特征词有关的部分类似度或该部分类似度占检索结果文件的类似度的比例;(4)上述(2)的数量或其比例除以上述(1)的数量或其比例后得到的值;(5)上述(3)的部分类似度或其比例除以上述(1)的数量或其比例后得到的值;(6)在上述顺位靠前检索结果文件中,输入文件的一个特征词的命中件数为预先指定的阈值以上的特征词的个数或其比例;(7)在上述顺位靠前检索结果文件中,输入文件的一个特征词的命中件数为预先指定的阈值以下的特征词的个数或其比例;(8)上述顺位靠前检索结果文件的类似度伴随检索顺位的降低而衰减的比例;(9)在上述顺位靠前检索结果文件中,被赋予了赋予给输入文件的分类的件数或其比例;(10)在作为检索对象的所有文件中,被赋予了赋予给输入文件的分类的件数或其比例;(11)在上述顺位靠前检索结果文件中,与输入文件之间著者共同的件数或其比例;(12)在上述顺位靠前检索结果文件中,与输入文件之间的发行日的偏离为预先指定的阈值以内的件数或其比例。4.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,上述检索精度为与上述教师输入文件对应的上述正确解答文件通过上述类似文件检索处理步骤被认定为在预先指定的顺位以内的上述教师输入文件的件数的比例。5.根据权利要求1中所述的类似文件检索辅助方法,其特征在于,在上述检索精度解析处理步骤中使用的上述教师输入文件所对应的要因表中的要因值仅由满足预先指定的条件的上述教师输入文件所对应的要因值构成。6.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,在上述检索结果输出处理步骤中,在向利用者示出存储在上述影响度表中的与新输入文件对应的要因值、以及检索精度和/或偏离值时,随附显示对应表,该对应表将上述新输入文件的特征词和与上述新输入文件对应的顺位靠前检索结果文件作为2个轴,且将上述顺位靠前检索结果文件i中的新输入文件的特征词j的权重值Wij、或上述顺位靠前检索结果文件i中的新输入文件的特征词j所具有的部分类似度Sij作为值。7.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,设置对策表,该对策表从上述各要因的视点出发,按每个上述要因组存储有记载了利用者该做什么的对策内容、记载了怎样进行上述对策内容的操作方法、为了进行上述操作方法而应该迁移的画面信息,来作为用于使利用者获得更好的类似文件检索结果的对策信息,在上述检索结果输出处理步骤中,在向利用者示出存储于上述影响度表的要因值、以及检索精度和/或偏离值时,使记载于上述对策表中的上述对策内容、上述操作方法、上述画面信息的至少一个附随...

【专利技术属性】
技术研发人员:间赖久雄藤稿航平
申请(专利权)人:株式会社日立制作所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1