一种分类目录自动构建方法及相关系统技术方案

技术编号:2819910 阅读:212 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种分类目录自动构建方法,包括:从现有数据中查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;计算所述概念术语集合中各个概念术语间的相关度;根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录后,返回给用户。本发明专利技术在现有的搜索引擎的基础上,为用户提供的查询词生成了相应的分类目录,所得到的分类目录能够反映用户查询的不同含义,从而有助于用户更容易、更快捷地找到所需的信息。

【技术实现步骤摘要】

本专利技术涉及计算机搜索领域,特别涉及在计算机搜索过程中为搜索结 果创建分类目录的方法以及相应的系统。
技术介绍
'计算机和互联网技术的快速发展,方便了人们对信息的获取。尤其是 近几年来,随着搜索引擎技术的飞速发展,因特网用户通过搜索引擎获取信息已经成为非常普遍的现象。CNNIC信息服务部在2005年1月公布的 《全球互联网统计信息报告》就已经显示搜索引擎拥有84%的网民用户。 现在的搜索引擎用户恐怕会更多。但是现在的搜索引擎很多时候并不能返 回正确的答案,尼尔森-诺曼集团的调查显示搜索引擎的评价成功率只有 42%。如何帮助用户快速准确地发现其所寻找的信息是搜索引擎的重要目 标。到目前为止,搜索引擎已经经历了两代第一代搜索引擎指主要依靠 人工分拣的分类目录搜索,这一类当时以Yahoo这样的门户网站为代表。 随着互联网规模的不断扩大,靠人工编辑生成的分类目录难以跟上互联网 信息增长速度;另外内容增多导致目录深度和每一层节点数的不断增加, 这些无疑加重了用户浏览信息和检索的负担。第二代搜索引擎以超链接分 析为基础的机器抓取技术为基础,在一定程度上解决了上述问题;这一类 以Google公司为代表。从交互上看,可以直接获取相关文档的第二代搜索引擎自然要比层层浏览跳转才能找到信息的第一代搜索引擎好。但是当 前的第二代搜索引擎相对于第一代搜索引擎也引入了两个弊端 一是搜索引擎返回的结杲缺乏人工目录的有效组织,不利于浏览。另一点在于,当 用户初始查询失败时,用户不能利用目录索引找到当前查询的相关内容。 而在人工编辑的分类目录中,用户查找失败后可以通过当前目录的上层目 录或相关目录去再次组织寻找。鉴于上述两种搜索引擎模式各自所存在的缺陷,若能够提供一种将两 种搜索引擎模式的优点集于一身的新的搜索方法,则有助于向用户提供更快、更有效的搜索服务。
技术实现思路
本专利技术的目的是克服现有的搜索引擎模式在搜索过程中各自所存在 的缺陷,从而提供一种在搜索过程中创建分类目录并根据所创建的分类目 录实现搜索的搜索方法。为了实现上述目的,本专利技术提供了一种分类目录自动构建方法,包括 步骤l)、查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合;步骤2)、计算所述概念术语集合中各个概念术语间的相关度; 步骤3)、根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类;步骤4 )、将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。上述技术方案中,所述的步骤3)还包括对所得到的概念术语类中的 概念术语做进一步的分类或聚类操作,得到范围更小的新的概念术语类。上述技术方案中,在所述的步骤3)中,采用图分割算法实现对概念 术语的分类操作,釆用聚类算法实现对概念术语的聚类操作。上述技术方案中,所述的图分割算法包括步骤3-l)、根据所述概念术语间的相关度,为所述的概念术语构建概 念关系步骤3-2 )、对所述概念关系图中代表概念术语的各个顶点进行划分, 按照所述顶点间相互联系的密切程度将所述概念关系图分为多个子图,每 个子图代表一个概念术语类。上述技术方案中,在所述的步骤3-1)中,在构建所述的概念关系图 时,包括步骤3-1-1)、用一个节点表示一个概念术语;步骤3-l-2)、当两个概念术语间的相关度高于用户指定的阈值时,为 表示这两个概念术语的两个节点间添加一条有权边,用所述概念术语间的 相关度数值表示所述有权边的权重;步骤3-1-3 )、对概念术语集合中的所有概念术语完成上述的两两相关 度判断后即可得到所述的概念关系图。上述技术方案中,在所述的步骤3-2)中,对所述子图划分的方法包括Kernighan-Li图划分方法、求解拉普拉斯矩阵特征向量的谱方法、基 于edge-betweenness的划分方法、K完全子图方法、互耳关网H接分析中的 HITS、 MCL方法,基于最大流最小割的web社区发现算法和密度二部图 划分方法,基于Modularity的社区发现算法,基于5 - Closure的社区发现 算法。上述技术方案中,所述的聚类算法包括single-linkage方法、ROCK 方法、Chameleon方法、或conceptual clustering方法。上述技术方案中,在所述的步骤1)中,从现有数据中查找与用户提 交的查询词有关的概念术语,所述的现有数据包括用于记录以前用户查询 的搜索引擎日志、搜索引擎返回的与当前查询相关的文档、词典、网上人 工编辑目录信息、Wiki信息、用户标注信息在内的信息。上述技术方案中,在所述的步骤1)中,所述的现有数据还包括用户 查询历史信息、用户查询倾向信息和/或用户注册帐号信息在内的用户个人JS息。上述技术方案中,所述的步骤2)还包括在计算所述概念术语集合 中各个概念术语间的相关度前,对所述概念术语集合中各个概念术语与所 述查询词的相关度进行计算,将与所述查询词的相关度小于用户指定阈值 的概念术语从所述概念术语集合中删除。上述技术方案中,在所述的步骤2)中,采用一种相关度计算方法对 所述概念术语间或概念术语与查询词间的相关度进行计算,所述的相关度 计算方法包括计算两个术语在同一文本内容中的共同出现次数的方法、 数据挖掘方法、计算两个术语间的互信息的方法、计算两个术语在词典或 人工目录中的距离的方法、传统信息检索中计算文本间距离的计算方法。上述技术方案中,在所述的步骤2)中,还包括采用至少两种计算相 关度的方法对概念术语间的相关度进行计算,将所得到的多种计算结果做 归一化加权操作,得到最终的相关度值。上述技术方案中,所述的步骤3)还包括采用类标签对所得到的概念 术语类进行标识。上述技术方案中,所述的类标签采用所代表的概念术语类中最具代表 性的概念术语,或能够对所代表的概念术语类中所有概念术语进行概括的 标签。上述技术方案中,所述的概念术语类中最具代表性的概念术语为所述 概念术语类中与类中心相似度值最大的概念术语。上述技术方案中,所述的能够对所代表的概念术语类中所有概念术语进行概括的标签的产生包括步骤a)、事先定义一组类别标签,依据类别标签对各概念术语类进行 分类,概念术语类的类标签就是其所属类别的类別标签;点,以这些节点共有的;深祖先节点作为该类的类标签。口, ';、上述技术方案中,在所述的步骤4)中,还包括将所述的分类目录返 回给用户,在返回给用户时,结合用户设定的模式信息显示所述的分类目 录,所述的模式信息包括图标、颜色、字体大小、对概念术语的注释说明。 本专利技术还提供了一种计算机搜索方法,包括 步骤1 )、用户输入查询词;步骤2)、采用所述的分类目录自动构建方法为所述的查询词构建分类 目录;步骤3 )、用户将步骤2 )所得到的分类目录中的概念术语作为推荐的 查询词发起下一次搜索,以得到更为精确的搜索结果。本专利技术还提供了一 种分类目录自动构建系统,包括概念术语抽取模块、相关度计算模块、 概念术语分类模块、分类目录显示模块以及用于包括现有数据的数据库; 其中,所述的概念术语抽取模块从所述数据库所存储的现有数据中找到与 用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集 合;所述的相关度计算模块计算所述概念术语集合本文档来自技高网
...

【技术保护点】
一种分类目录自动构建方法,包括: 步骤1)、查找与用户提交的查询词有关的概念术语,得到与所述查询词相关的概念术语集合; 步骤2)、计算所述概念术语集合中各个概念术语间的相关度; 步骤3)、根据所述概念术语间的相关度,对所述概念术语集合中的概念术语做分类或聚类操作,得到至少一个概念术语类; 步骤4)、将所述概念术语集合中的概念术语按照所述概念术语类组织成分类目录。

【技术特征摘要】

【专利技术属性】
技术研发人员:李亚楠王斌李锦涛李鹏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1