检索装置及检索方法制造方法及图纸

技术编号:10301316 阅读:134 留言:0更新日期:2014-08-07 07:37
检索装置及检索方法,具备:存储单元,存储包含在两端附加分界字符的检索对象字符串的文档数据;获取单元,获取关键字;生成单元,在获取单元获取的关键字的两端附加分界字符,生成检索字符串;指定单元,从生成单元生成的检索字符串中提取多个部分串,指定该提取的部分串出现在文档数据的检索对象字符串中的出现位置;确定单元,基于指定单元的指定结果,确定与检索字符串的部分串共通的部分串在检索对象字符串中以与检索字符串相似的位置关系出现的频率;评价单元,基于确定单元的确定结果以及检索对象字符串与检索字符串的字符长度的差,评价检索对象字符串与检索字符串的相似度;输出单元,基于评价单元的评价结果输出检索对象字符串。

【技术实现步骤摘要】
检索装置及检索方法
本专利技术涉及一种检索装置、检索方法。
技术介绍
对于检索文档,有一种公知的检索系统,其具备将与检索关键字不完全一致的部分作为命中部位的模糊检索功能。例如,专利文献1(日本特开平8-235212号公报)中公开了一种使用将检索对象的文本中出现的字符的位置进行了记录的检索索引来执行模糊检索的技术。专利文献1的技术中,首先获取检索关键字中出现的字符在检索对象文本中出现的位置。然后,在该字符也在从关键字中出现的位置起以预定范围内的误差出现在检索对象字符串中的情况下,相加计算相似度。基于这样计算出的相似度来实施模糊检索。专利文献1中记载的技术中,对于在从关键字中出现的位置起以预定范围内的误差也出现在检索对象中的字符的数量相等的检索对象字符串,计算出相同相似度。因此,导致与检索关键字非常接近的检索对象的字符串、和只是分散杂乱出现检索关键字所包含字符的字符串具有相同的相似度。所以,存在检索结果即为用户所期望的文档的精度低的问题。
技术实现思路
本专利技术是鉴于这种情况而提出的,目的是提供一种能够以高精度执行模糊检索的检索装置、检索方法。本专利技术涉及的检索装置,具备:存储单元,其存储包含在两端部附加了分界字符的检索对象字符串的文档数据;获取单元,其获取关键字;生成单元,其在所述获取单元获取的关键字的两端部附加分界字符,生成检索字符串;指定单元,其从所述生成单元生成的检索字符串中提取多个部分串,指定该提取的部分串出现在所述文档数据的检索对象字符串中的出现位置;确定单元,其基于所述指定单元的指定结果,确定在所述检索对象字符串中,与所述检索字符串的部分串共通的部分串以与所述检索字符串相似的位置关系出现的频率;评价单元,其基于所述确定单元的确定结果、以及所述检索对象字符串与所述检索字符串的字符长度的差值,评价该检索对象字符串与该检索字符串的相似度;以及输出单元,其基于所述评价单元的评价结果,输出所述检索对象字符串。根据本专利技术,能够以高精度执行模糊检索。附图说明图1是表示本专利技术的实施方式1涉及的文本检索装置的一个例子的立体图。图2是表示实施方式1涉及的文本检索装置的一个结构例的图。图3是表示实施方式1涉及的文本检索装置执行的数据等生成处理的一个例子的流程图。图4是表示实施方式1涉及的文本检索装置的功能结构的一个例子的框图。图5(A)是表示文本检索装置存储的词典数据的一个例子的图。(B)是表示文本检索装置存储的重新配置内容文本数据的一个例子的图。图6是表示实施方式1涉及的文本检索装置显示的文本检索的结果显示画面的一个例子的图。图7是表示实施方式1涉及的文本检索装置存储的词典表的一个例子的图。图8是表示包含由实施方式1涉及的文本检索装置存储的转置索引的电子文件的一个例子的图。图9是表示实施方式1涉及的文本检索装置执行的文本检索处理的一个例子的流程图。图10是表示实施方式1涉及的文本检索装置执行的N元组提取处理的概要的图。图11是表示实施方式1涉及的文本检索装置执行的模糊检索处理的一个例子的流程图。图12是表示实施方式1涉及的位置检索结果的一个例子的图。图13(A)是表示实施方式1涉及的检索模式的N元组在关注字符串中出现的位置信息的例子的图。(B)是表示位置信息的组合的例子的图。图14是用于说明实施方式1涉及的文本检索装置执行的求出一致度的处理的概要的图。具体实施方式以下,参照附图对本专利技术的实施方式涉及的文本检索装置100进行说明。本专利技术的实施方式涉及的文本检索装置100由如图1所示的电子词典构成,具备:按照用户的操作输入检索关键字的键盘100i、以及将基于检索关键字检索词典所得的检索结果进行显示的LCD(LiquidCrystalDisplay)100h。在文本检索装置100的内部内置有图2所示的CPU(CentralProcessingUnit)100a、ROM(ReadOnlyMemory)100b、RAM(RandomAccessMemory)100c、硬盘100d、介质控制器100e、视频卡100g以及扬声器100j,经由总线与图1所示的LCD100h及键盘100i连接。CPU100a通过保存在ROM100b或硬盘100d中的程序,为了下述检索处理而控制文本检索装置100的各部分或执行内部处理。RAM100c作为工作区使用,在由CPU100a执行程序时将作为处理对象的数据暂时性存储等。硬盘100d存储保存各种数据的表以及英日词典等的词典数据。另外,文本检索装置100也可以具备闪速存储器,取代硬盘100d。介质控制器100e从包含闪速存储器、CD(CompactDisc)、DVD(DigitalVersatileDisc)以及蓝光光盘(Blu-rayDisc)(注册商标)的记录介质中读取各种数据及程序。视频卡100g基于从CPU100a输出的数字信号绘制图像(即渲染),同时输出表示所绘制的图像的图像信号。LCD100h按照从视频卡100g输出的图像信号显示图像。另外,文本检索装置100也可以具备PDP(PlasmaDisplayPanel)或EL(Electroluminescence)显示器来取代LCD100h。扬声器100j基于从CPU100a输出的信号输出声音。若用户将记录词典数据的记录介质向图2所示的介质控制器100e插入该记录介质,则CPU100a从介质控制器100e接收词典数据的信号。CPU100a从介质控制器100e获取词典数据时,将词典数据保存在硬盘100d中。随后,CPU100a执行如图3所示的数据等生成处理,即生成用于基于检索关键字检索由词典数据表示的词典的数据及电子文件。由此,CPU100a与文本检索装置100的其他结构要素合作,作为如图4所示的生成部120发挥功能。图4是表示CPU100a执行的功能的功能框图。然后,CPU100a通过与文本检索装置100的其他结构要素、特别是硬盘100d合作,作为信息存储部110发挥功能。信息存储部110存储本实施方式中作为检索对象的词典数据。该词典数据如图5A所示,由表示词条的文本(以下称为词条文本)、表示词条的解释的文本(以下称为解释文本)、例如表示熟语或复合词等(以下称为成语)词条的用例的文本(以下称为用例文本)构成。解释文本和用例文本合起来称为正文文本。换句话说,词典数据中包含的文本可以分类为表示词条的文本(词条文本)和用于说明词条的正文(正文文本)这两个类别(词条类别、正文类别)。属于正文类别的文本可以进一步分类为词条的解释、以及其用例这两种(解释类别、用例类别)。另外,在词典数据中将词条文本占据的部分称为词条部CE,将正文文本占据的部分称为正文部CB。解释文本由表示该文本所表示的内容是解释的解释标签包围,用例文本由表示该文本所表示的内容是用例的用例标签包围。词典数据以词条部CE和正文部CB的组作为一个结构单位,由该结构单位连接构成。例如词典数据如果为英日辞典,则各结构单位以配置在词条部CE中的词条文本的字母表顺序排列。各结构单位中,紧跟在包含词条文本的词条部CE后面,配置有包含用于说明该词条的正文文本的正文部CB。另外,对词条部CE预先分配了识别词条部CE的词条号码。词典数据中,以词条的数量包含将表示该词条号码的信息、表示存放用该词条号本文档来自技高网...
检索装置及检索方法

【技术保护点】
一种检索装置,其特征在于,具备:存储单元,其存储包含在两端部附加了分界字符的检索对象字符串的文档数据;获取单元,其获取关键字;生成单元,其在所述获取单元获取的关键字的两端部附加分界字符,生成检索字符串;指定单元,其从所述生成单元生成的检索字符串中提取多个部分串,指定该提取的部分串出现在所述文档数据的检索对象字符串中的出现位置;确定单元,其基于所述指定单元的指定结果,确定在所述检索对象字符串中,与所述检索字符串的部分串共通的部分串以与所述检索字符串相似的位置关系出现的频率;评价单元,其基于所述确定单元的确定结果、以及所述检索对象字符串与所述检索字符串的字符长度的差值,评价该检索对象字符串与该检索字符串的相似度;以及输出单元,其基于所述评价单元的评价结果,输出所述检索对象字符串。

【技术特征摘要】
2013.01.30 JP 2013-0161991.一种检索装置,其特征在于,具备:存储单元,其存储包含在两端部附加了分界字符的检索对象字符串的文档数据;获取单元,其获取关键字;生成单元,其在所述获取单元获取的关键字的两端部附加分界字符,生成检索字符串;指定单元,其从所述生成单元生成的检索字符串中提取多个N元组字符串,指定所提取的多个N元组字符串出现在所述文档数据的检索对象字符串中的出现位置;确定单元,其一次一个地选择所述检索对象字符串中所包含的N元组,并且对于所选择的每一个单个N元组,基于所选择的单个N元组出现的位置,在从所述检索字符串获得的N元组字符串和从所述检索对象字符串获得的N元组字符串进行比较时,对相对位置一致的N元组进行计数;评价单元,其基于所计数的计数值的频率、以及所述检索对象字符串与所述检索字符串的字符长度的差值,评价该检索对象字符串与该检索字符串的相似度;以及输出单元,其基于所述评价单元的评价结果,输出所述检索对象字符串。2.根据权利要求1所述的检索装置,其特征在于,所述指定单元包含提取单元,其提取多个N元组字符串,使得所述检索字符串包含的字符串全部被包含在某个N元组字符串之中;所述指定单元针对所述提取单元提取的多个N元组字符串执行所述指定单元的处理。3.根据权利要求2所述的检索装置,其特征在于,在所述提取单元提取的多个N元组字符串之内,包含所述分界字符的N元组字符串的任一个都包含2个以上的字符。4.根据权利要求3所述的检索装置,其特征在于,还具备存储单元,其存储表示多个所述检索对象字符串中包含的、包含预定数量的字符的N元组字符串分别在所述检索对象字符串中出现的位置的索引;所述指定单元使用所述索引,指定所述N元组字符串出现的位置。5.根据权利要求4所述的检索装置,其特征在于,所述索引包含将多个所述检索对象字符串基于字符长度分组后,针对这些组的每一组汇总了对检索对象字符串的参照的信息;所述指定单元,针对所述这些组的每一组的字符长度和所述检索字符串的字符长度的误差比预定的阈值小的组所包含的检索对象字符串,执行所述指定单元的处理,另外,针对比所述预定的阈值大的组所包含的检索对象字符串,省略所述指定单元的处理。6.根据权利要求3所述的检索装置,其特征在于,所述提取单元提取的多个N元组字符串中,不包...

【专利技术属性】
技术研发人员:佐藤胜彦
申请(专利权)人:卡西欧计算机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1