【技术实现步骤摘要】
类似文件检索辅助装置以及类似文件检索辅助方法
本专利技术涉及从大量的文件集合中检索所希望的文件的文件检索装置以及文件检索方法。特别是,本专利技术涉及类似文件检索辅助装置以及类似文件检索辅助方法,其中,从将利用者指定的文章或文件作为检索条件,将与此记载内容类似或关连的文件作为检索对象的文件集合中进行检索,并从类似或关连程度高的文件开始依次输出。
技术介绍
通过互联网等通信网络或PC/便携式电话等硬件的普及和低价格化、CPU的高速化、存储器或硬盘的大容量化/低价格化、检索系统或文件编辑器等软件的高功能化/高性能化等,一般的人们能够容易地访问大量的文件信息。而另一方面,从大量的文件集合中迅速准确且低劳动量地检索/取得所希望的文件却变得困难。作为从大量的文件集合中检索所希望的文件的方式,一般是关键字检索。在关键字检索中,利用者制作由与所希望的文件有关连的一个以上的关键字和表示关键字间的逻辑关系性的逻辑运算符(AND/OR/NOT等)构成的关键字逻辑式。文件检索装置接收来自利用者的逻辑式,从检索对象文件集合中仅检索该逻辑式为真的文件,并向利用者示出。但是,在关键字检索中,经常存在利用者想不到为了将检索结果文件压缩至可阅览的个数,应该制作怎样的关键字逻辑式的情况。此外,优先输出反映了利用者的检索意图的检索结果文件的作法,在精度上来讲也是困难的。而近来,在关键字检索的领域中,从将由利用者输入的任意的文章或指定的任意的文件作为检索条件,从作为检索对象的文件集合中检索与此记载内容类似或关连的文件,从类似或关连程度高的文件开始依次输出的技术普及起来。该技术被称为类似文件检索。 ...
【技术保护点】
一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的各教师输入文件对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索 ...
【技术特征摘要】
2012.02.24 JP 2012-0381631.一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的各教师输入文件对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索目录中的一个以上,提取上述各教师输入文件的要因值,并存储于要因表,上述各教师输入文件的要因值与作为影响类似文件检索精度的要因而被预先定义的各要因相对应;检索精度解析处理步骤,针对存储于上述要因表的、与上述教师文件表内的教师输入文件集合对应的上述要因值,基于与一个要因有关的要因值的分布或与多个要因有关的要因值的分布的组合,将上述教师输入文件集合分割成要因组,根据与属于一个要因组的上述教师输入文件对应的上述正确解答文件的检索顺位计算与该要因组对应的检索精度,并计算上述计算出的检索精度相对于针对上述教师输入文件的整体所计算出的检索精度平均值之差来作为偏离值,将上述要因组、符合该要因组的上述要因值所能取的范围、上述检索精度、和上述偏离值存储于检索精度表;以及影响度计算处理步骤,将针对上述正确解答文件为未知的新输入文件所获得的上述要因值与存储于上述检索精度表的各要因组的值范围进行对照,由此,提取与满足上述值范围的要因组对应的上述检索精度以及偏离值,并与该新输入文件的上述要因值一同存储于影响度表,在上述检索结果输出处理步骤中,向利用者示出存储在上述影响度表中的与新输入文件对应的上述要因值、以及上述检索精度和/或上述偏离值。2.一种类似文件检索辅助方法,包括:特征词提取处理步骤,对存储于文件数据库的检索对象文件进行解析,提取特征词以及表示其重要度的权重,并存储于检索目录;类似文件检索处理步骤,从通过对输入装置的操作输入而被指定的输入文件提取对应的加权特征词,与存储于上述检索目录的加权特征词进行对照,并计算上述输入文件与上述检索对象文件之间的类似度,从类似度高的检索对象文件开始依次决定为检索结果文件集合;以及检索结果输出处理步骤,向利用者告知上述检索结果文件集合,在该类似文件检索辅助方法中,具有:特征词收集处理步骤,通过上述特征词提取处理步骤,从教师输入文件内的文本提取或者从上述检索目录收集与构成教师文件表的教师输入文件分别对应的加权特征词,并存储于特征词表,该教师文件表中具有多个对,所述对是正确解答文件为已知的教师输入文件和与上述教师输入文件对应的上述正确解答文件的对;要因数据提取处理步骤,基于针对各上述教师输入文件由上述类似文件检索处理步骤决定的检索结果文件集合,确定与各教师输入文件对应的上述正确解答文件的检索顺位,并且通过参照与上述各教师输入文件对应的上述特征词表、上述检索结果文件集合、著录信息以及上述检索目录中的一个以上,提取上述各教师输入文件的要因值,并存储于要因表,上述各教师输入文件的要因值与作为影响类似文件检索精度的要因而被预先定义的各要因相对应;以及影响度计算处理步骤,对于针对上述正确解答文件为未知的新输入文件所获得的上述要因值,确定由满足与一个要因有关的与新输入文件对应的要因值或其附近值的上述教师输入文件、或完全满足与多个要因有关的与新输入文件对应的要因值或其附近值的上述教师输入文件构成的文件群,根据与属于上述文件群的上述教师输入文件对应的上述正确解答文件的检索顺位来计算与该文件群对应的检索精度,并计算上述计算出的检索精度相对于对上述教师输入文件的整体所计算出的检索精度平均值之差来作为偏离值,将上述要因值、上述检索精度以及上述偏离值存储于影响度表,在上述检索结果输出处理步骤中,向利用者示出存储在上述影响度表中的与新输入文件对应的上述要因值、以及上述检索精度和/或上述偏离值。3.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,影响上述类似文件检索精度的要因包含以下所示的(1)~(12)中的至少一个以上:(1)相对于由预先指定的件数构成的各顺位靠前检索结果文件的、输入文件中的各特征词的总命中数或其比例;(2)上述(1)的总命中数中的、输入文件中的特征词在检索结果文件中的权重为预先指定的阈值以上的数量或其比例;(3)上述(1)的总命中数中的、与输入文件中的特征词有关的部分类似度或该部分类似度占检索结果文件的类似度的比例;(4)上述(2)的数量或其比例除以上述(1)的数量或其比例后得到的值;(5)上述(3)的部分类似度或其比例除以上述(1)的数量或其比例后得到的值;(6)在上述顺位靠前检索结果文件中,输入文件的一个特征词的命中件数为预先指定的阈值以上的特征词的个数或其比例;(7)在上述顺位靠前检索结果文件中,输入文件的一个特征词的命中件数为预先指定的阈值以下的特征词的个数或其比例;(8)上述顺位靠前检索结果文件的类似度伴随检索顺位的降低而衰减的比例;(9)在上述顺位靠前检索结果文件中,被赋予了赋予给输入文件的分类的件数或其比例;(10)在作为检索对象的所有文件中,被赋予了赋予给输入文件的分类的件数或其比例;(11)在上述顺位靠前检索结果文件中,与输入文件之间著者共同的件数或其比例;(12)在上述顺位靠前检索结果文件中,与输入文件之间的发行日的偏离为预先指定的阈值以内的件数或其比例。4.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,上述检索精度为与上述教师输入文件对应的上述正确解答文件通过上述类似文件检索处理步骤被认定为在预先指定的顺位以内的上述教师输入文件的件数的比例。5.根据权利要求1中所述的类似文件检索辅助方法,其特征在于,在上述检索精度解析处理步骤中使用的上述教师输入文件所对应的要因表中的要因值仅由满足预先指定的条件的上述教师输入文件所对应的要因值构成。6.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,在上述检索结果输出处理步骤中,在向利用者示出存储在上述影响度表中的与新输入文件对应的要因值、以及检索精度和/或偏离值时,随附显示对应表,该对应表将上述新输入文件的特征词和与上述新输入文件对应的顺位靠前检索结果文件作为2个轴,且将上述顺位靠前检索结果文件i中的新输入文件的特征词j的权重值Wij、或上述顺位靠前检索结果文件i中的新输入文件的特征词j所具有的部分类似度Sij作为值。7.根据权利要求1或2中所述的类似文件检索辅助方法,其特征在于,设置对策表,该对策表从上述各要因的视点出发,按每个上述要因组存储有记载了利用者该做什么的对策内容、记载了怎样进行上述对策内容的操作方法、为了进行上述操作方法而应该迁移的画面信息,来作为用于使利用者获得更好的类似文件检索结果的对策信息,在上述检索结果输出处理步骤中,在向利用者示出存储于上述影响度表的要因值、以及检索精度和/或偏离值时,使记载于上述对策表中的上述对策内容、上述操作方法、上述画面信息的至少一个附随...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。