【技术实现步骤摘要】
【国外来华专利技术】使用索引的信息检索系统和信息检索方法
本专利技术涉及信息检索技术,尤其涉及用于基于所收集的信息生成用于对数据库进行检索的索引的装置和方法、以及用于执行该方法的程序。
技术介绍
当前,提供有使用计算机系统的各种信息检索服务。例如,所谓的因特网检索是用于检索散布在因特网上的庞大信息(资源)的Web站点上的信息检索服务,典型地,服务提供者的被称为检索引擎的服务器程序基于用户给出的检索查询来进行索引检索,并向用户提供该检索的结果。在这样的信息检索服务中,典型地,检索引擎预先通过被称为爬行器(Crawler)的机器人代理巡回访问因特网上的Web页,并收集、分析所访问的Web页的信息,由此生成用于检索数据库的索引。当用户通过Web浏览器访问检索站点并输入希望检索的文本(检索查询)时,检索引擎分析检索查询而检索索引,并对基于预定的排名算法而提取出的结果进行评分,将按得分对这些提取出的结果进行排序所得的结果作为检索结果提供给用户。由于这样的以往的索引型检索引擎预先根据由爬行器收集的信息直接生成索引,所以用户会得到仅基于被索引化的信息 ...
【技术保护点】
1.一种装置,其特征在于,基于包含文本的资源来生成用于检索数据库的索引,所述装置具备:/n辞典,其按每个特定的概念包含相互关联的多个短语;/n输入接口部,其接收所述资源的输入;/n文本处理部,其进行用于从所述接收的资源的文本切分出多个词语而作为标记的处理;/n有向图生成部,其根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图;/n有向图搜索部,其基于搜索对象短语在所述有向图内进行搜索,且在所述辞典中发现所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置;以及/n索引生成部,其基于所述有向图内的多个标记生成表示与所述资源的关联性的索引,/n所 ...
【技术特征摘要】
【国外来华专利技术】20180305 JP 2018-039167;20180713 JP 2018-1337521.一种装置,其特征在于,基于包含文本的资源来生成用于检索数据库的索引,所述装置具备:
辞典,其按每个特定的概念包含相互关联的多个短语;
输入接口部,其接收所述资源的输入;
文本处理部,其进行用于从所述接收的资源的文本切分出多个词语而作为标记的处理;
有向图生成部,其根据所述文本生成表现了所述切分出的多个标记彼此的连接关系的有向图;
有向图搜索部,其基于搜索对象短语在所述有向图内进行搜索,且在所述辞典中发现所述搜索对象短语的情况下,确定所述搜索对象短语在所述有向图内出现的位置;以及
索引生成部,其基于所述有向图内的多个标记生成表示与所述资源的关联性的索引,
所述有向图搜索部将所述有向图内的至少一个标记设定为所述搜索对象短语,并基于所述设定的搜索对象短语参照所述辞典,
所述有向图生成部通过基于所述辞典,向所述有向图添加基于与所述搜索对象短语相关联的至少一个短语的新标记,从而更新所述有向图。
2.根据权利要求1所述的装置,其特征在于,
所述有向图生成部生成通过节点将所述多个标记中的相邻的标记彼此连接而成的所述有向图。
3.根据权利要求2所述的装置,其特征在于,
所述有向图生成部将在所述辞典中发现的与所述搜索对象短语相关联的所述至少一个短语连接于所述有向图内的所述出现的位置的前后节点。
4.根据权利要求1所述的装置,其特征在于,
所述有向图搜索部在由所述有向图生成部更新了的有向图内进行搜索。
5.根据权利要求4所述的装置,其特征在于,
所述有向图搜索部以避免对所述更新了的有向图中已经结束了搜索的标记进行重新搜索的方式在所述更新了的有向图内进行搜索。
6.根据权利要求5所述的装置,其特征在于,
所述有向图包含将所述多个标记中的相邻的标记彼此连接的多个节点,
所述有向图搜索部将与结束了所述搜索的标记相关联的节点存储为搜索完毕节点,并对与所述搜索完毕节点以外的节点连接的标记进行重新搜索。
7.根据权利要求1所述的装置,其特征在于,
所述装置还具备数据阵列,所述数据阵列表示基于所述辞典中包含的所述多个短语而构成的树结构,所述树结构包含与所述多个短语分别对应的有序节点,
所述有向图搜索部参照所述树结构在所述有向图内进行搜索。
8.根据权利要求7所述的装置,其特征在于,
在所述搜索对象短语与所述树结构中的至少一个所述有序节点所对应的至少一个短语一致的情况下,所述有向图搜索部判断为在所述有向图内出现了所述搜索对象短语。
9.根据权利要求8所述的装置,其特征在于,
所述有向图生成部向所述有向图添加新标记,由此更新所述有向图,所述新标记是基于所述辞典中的与所述一致的搜索对象短语相关联的至少一个短语的标记。
10.根据权利要求1所述的装置,其特征在于,
所述索引生成部基于更新了的所述有向图内的多个标记来提取N-gram,并且基于所述提取出的N-gram生成所述索引。
11.根据权利要求10所述的装置,其特征在于,
所述索引生成部提取基于单词的N-gram作为所述N-gram。
12.一种检索装置,其特征在于,包括:
由权利要求1所述的装置生成的索引;
资源信息文件,其是关于与所述索引相关联的所述资源的信息文件;以及
查询服务器,其基于检索查询来检索所述索引,并基于该检索的结果从所述资源信息文件确定至少一个资源,且输出表示所述确定的至少一个资源的检索结果,
所述查询服务器基于从所述确定的至少一个资源得到的包含与所述至少一个资源中的短语相关联的预定的关联短语的有向图,确定成为所述至少一个资源被确定的依据的依据短语以及与所述短语相关联的所述至少一个资源中的原始短语,
所述检索结果包...
【专利技术属性】
技术研发人员:西村邦裕,青木贵司,竹内俊贵,赤部晃一,
申请(专利权)人:株式会社天空,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。