【技术实现步骤摘要】
本专利技术涉及适于将检索词扩展成近义词且进行有效检索的近义词列表的生成方法以及生成装置、使用了该近义词列表的检索方法以及检索装置。
技术介绍
伴随文档的电子化的増加,从至今为止积蓄的大量的文档组中找出所希望的文档的检索技术的重要性变高。电子设备中的典型的检索是从检索对象的文档组中找出包含用户输入的检索词的文档,井向用户显示该找出的文档。然而,在自然语言中,可能以其他的词汇来表现与某个词汇相同的意思。例如,“世界上最大的岛屿”这个语句与“世界上第一大的岛屿”这个语句意思相同。在单纯以字符串 是否一致的检索中,由于用户作为检索词即便输入“世界上最大的岛屿”,也不能够找出记述“世界上第一大岛屿”的文档,因此,存在很难找出用户想要的文档的问题。对此,近年来,为了提高用户的使用便利性,公开了各种扩展成这样的近义词来进行检索的技木。例如在专利文献1(日本特开2004-118262号公报)中公开了将检索词扩展到近义词,并为了减少检索噪声而限制文档数量的技木。而且,在专利文献2(日本特开2006-215717号公报)中公开了通过评价近义词相对检索词的类似度,并基于类似度进行检索 ...
【技术保护点】
【技术特征摘要】
2011.03.24 JP 2011-0665111.一种近义词列表的生成方法,其特征在于,具备 判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中的判定步骤; 对判定为包含在上述文档数据组中的基准词和近义词进行提取的提取步骤; 基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况,设定上述提取出的近义词的输出优先级的设定步骤;以及 针对上述提取出的基准词,以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表的生成步骤。2.根据权利要求I所述的近义词列表的生成方法,其特征在干, 在上述设定步骤中,识别同时包含该近义词和对应的基准词的文档数据的个数,基于该识别出的个数,对上述提取出的近义词设定输出优先级。3.根据权利要求I所述的近义词列表的生成方法,其特征在干, 在上述设定步骤中,识别同时包含该近义词和对应的基准词的文档数据的个数,该识别出的个数越少,对上述提取出的近义词设定越高的输出优先级。4.一种检索方法,其特征在干, 该检索方法是ー种使用由如下近义词列表的生成方法生成的近义词列表的检索方法,其中,该近义词列表的生成方法具备如下步骤判定基准词和与其对应的近义词是否包含在包含成为检索对象的多个文档数据的文档数据组中的判定步骤;对判定为包含在上述文档数据组中的基准词和近义词进行提取的提取步骤;基于上述文档数据组中的该近义词和对应的基准词的至少一方的出现状况,设定上述提取出的近义词的输出优先级的设定步骤;以及,针对上述提取出的基准词,以设定了上述输出优先级的近义词与该基准词对应的方式来生成近义词列表的生成步骤, 该检索方法具备 从上述文档数据组中,确定出包含有所希望的检索字符串的文档数据的文档确定步骤; 输出上述确定出的文档数据的文档输出步骤; 判定上述近义词列表所具有的基准词是否包含在上述检索字符串中的基准词判定步骤;以及 将与判定为包含在上述检索字符串中的基准词对应的近义词,以与对该近义词设定的输出优先级对应的方式进行输出的近义词输出步骤。5.根据权利要求4所述的检索方法,其特征在干, 在上述基准词判定步骤中,判定上述近义词列表所具有的基准词是否包含于上述检索字符串中的用户指定的字符串, 在上述近义词输出步骤中,将与判断为包含在上述用户指定的字符串中的基准词对应的近义词,以与对该近义词设定的输出优先级对应的...
【专利技术属性】
技术研发人员:山口伦治,
申请(专利权)人:卡西欧计算机株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。