基于相关反馈和聚类的搜索引擎技术制造技术

技术编号:3987856 阅读:373 留言:0更新日期:2012-04-11 18:40
本发明专利技术同时利用用户相关反馈信息和相关度排序指导检索结果的聚类,使检索结果的最终划分符合用户查询需求;在聚类过程中去除了大量与用户不相关的文档和重复网页,提高了聚类速度,同时优化了检索结果。在聚类过程中,与用户不相关的一类聚簇不修改聚类中心,确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。

【技术实现步骤摘要】

本专利技术涉及互联网信息检索
,尤其涉及一种基于相关反馈和聚类的Web 检索结果优化方法。
技术介绍
目前,搜索引擎大都是基于关键词来进行索引和检索的,根据用户输入的关键词 列表,搜索引擎查找索引库,将匹配的文档按照与用户查询的相关度的不同排序显示。由于 关键词具有一词多义现象,而且用户往往只输入很少的关键词进行检索,使得搜索引擎返 回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档,用户必须逐个浏览检 索结果列表以找到相关文档,其中还有许多内容重复的网页,从这样的检索结果中浏览信 息会浪费用户许多时间和大量精力。为了方便用户的浏览,一些研究人员将自动聚类技术用于Web信息检索结果的类 别划分,将具有相似特征(例如同属于一个主题)的文档放在同一组,以便于用户缩小查找 范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。但是对检索结果的自动聚类 没有考虑与用户的相关性,导致检索结果不能反映用户的特定意愿及专业领域,用户也不 能根据自己的需要和兴趣选择文档聚类的方式。另外,在Web搜索引擎上其检索结果数量 巨大,已有的自动聚类研究是对全部检索结果包括大量与用户不相关的结果进行聚类,聚 类过程需要时间长,从而影响搜索引擎的性能。为了使检索结果的聚类与特定用户的查询需求相关,出现了一种基于查询日志 的检索结果的半指导聚类方法。该方法根据查询日志中用户点击结果的记录数据得到 must-link约束,具体方法是假定用户点击了同一页的两个检索结果,则认为它们是和用户 查询相关的,由此可以得出它们之间具有must-link约束关系。考虑到由于个人的原因选 择的must-link约束会具有噪声,该方法首先统计查询日志中这些约束的产生频率,然后 选择频率大于某个阈值的约束作为最终的must-link约束。用此方法遍历查询日志可以得 到关于每个查询的must-link约束,最后根据约束进行检索结果的半指导聚类。由于查询 日志中并不包括用户的所有可能的查询,对于用户输入的新的查询,并不能从查询日志中 得到约束关系;此外,在聚类时保证了 must-link约束的结果在同一聚簇中,can not-link 约束的结果不在同一聚簇中,并没有考虑聚类过程的优化,按照该方法对Web信息检索结 果聚类时对全部与用户相关的和不相关的检索结果进行聚类处理仍然会耗时长,影响搜索 引擎的性能。另一种将用户反馈信息结合到文本聚类的方法,需要用户首先指定属于一些聚簇 的例子文档以指导聚类过程。然后将聚类结果呈现给用户,由用户检查聚类结果并给出一 些反馈信息,例如指出文档d应该属于聚簇S或不应属于聚簇S ;文档d应该从聚簇Si换 到聚簇h ;两个文档应在同一聚簇或不应在同一聚簇。根据用户反馈信息指导下一轮聚类 过程,再与用户交互,直到得到用户满意的聚类结果。对每个聚簇建模时使用了特征局部权 重来反映一个聚簇的特征的重要性。通过增加更多更准确的约束来提高特征局部权重的质量,从而提高聚类效果。该方法主要考虑了文本聚类的有效性,但需要用户多次输入反馈 信息,增加了用户的负担,尤其是首次聚类时需要用户指定属于一些聚簇的例子文档以指 导聚类过程,给用户增加了难度;而且聚类的过程耗时长,不适用于Web信息检索结果的聚 类。
技术实现思路
本专利技术针对上述方法存在的需要用户多次输入复杂的反馈信息或是查询日志对 新的查询无效,以及对全部检索结果聚类耗时长、结果划分中存在无关文档类或文档聚簇 中仍存在大量重复内容等弊端,提供了一种只需用户输入与查询需求相关和不相关的少部 分反馈信息来指导优化Web检索结果的方法。本专利技术采用以下技术方法(1)确定初始聚类类别数和各类别的初始聚类中心向量,包括将用户从检索结果中选取的相关文档划为一类,称为相关文档类,确定相关文档 类的初始聚类中心;相关文档类的初始聚类中心向量通过求取各个关键词在该类各个文档 中的权重平均值得到。将不相关文档划分为一个或若干个不相关文档类,确定每类的初始聚类中心,包 括-选一个不相关文档作为第一个不相关文档类,该文档的特征向量即为该文档类 的聚类中心向量-计算其余不相关文档和上述类别的相似度,根据相似度值将其划分到最相近的 某个不相关类别中或划分到新的不相关类,如果是划分到新的一类,则该文档的特征向量 即为该类的聚类中心向量(2)初始划分及确定最终聚类类别数;计算检索结果列表中用户未选取的文档与相关文档类和不相关文档类的相似度, 根据相似度值的大小进行以下处理-将其划分到最相近的某个文档类中-或划分到新的文档类,该文档特征向量即为该类的聚类中心向量;-或者判断出属于重复内容的文档并将其删除(3)去掉初始划分中的每个文档类(聚簇)中内容重复的文档;从该类中的某个文档dl开始,计算该文档的特征向量与其后各个文档向量之间 的相似度,根据相似度值判断某文档是否与文档dl内容重复,如果是,则从检索结果列表 和该文档类中删除与该文档dl内容重复的文档;然后从更新了的检索结果列表中的下一个开始,计算该文档的特征向量与其后各 个文档的特征向量之间的相似度,并进行是否是重复文档的判断。重复上述过程,直到检索结果列表的最后。(4)修改除了不相关文档类以外的其它类别的聚类中心向量;类的初始聚类中心向量通过求取各个关键词在该类各个文档中的权重平均值得 到。(5)重新计算检索结果列表中用户未选中的其它项与每个聚类中心的相似度,重新进行划分,包括-计算每个文档的特征向量和每个类别聚类中心向量之间的相似度,将文档划分 到最相近的类别中。-如果某文档属于不相关文档类,而且其与查询的相关度排序靠后,则分别从不相 关文档类别和检索结果列表中删除该文档。(6)重复步骤⑷和(5),直到满足终止条件。本专利技术同时利用用户相关反馈信息和相关度排序指导检索结果的聚类,使检索结 果的最终划分符合用户查询需求;在聚类过程中去除了大量与用户不相关的文档和重复网 页,提高了聚类速度,同时优化了检索结果。在聚类过程中,与用户不相关的一类聚簇不修 改聚类中心,确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。附图说明下面结合附图对本专利技术作详细说明图1为本专利技术的流程图。具体实施例方式步骤S101 用户从搜索引擎检索结果中选择相关的文档和不相关的文档;步骤S102 确定初始聚类类别数和初始聚类中心;假设检索结果列表中文档为dl,d2,. . ds(s为文档数),假设检索系统的索引库中 索引的关键词不包括停用词,在检索系统的索引库中选取文档dl,d2,. . ds中关键词权重, 即关键词在文档中出现的频率,大于预设的阈值8 k的关键词tl,t2,t3,,.tn(n为关键词 数),构成向量空间模型中向量的维,则文档di的特征向量di定义为di = (wn, wi2, ,win)(1)其中,Wij= tfi」(i = l,2,...s,j = 1,2,...11)3、是第]_个关键词在第1个文 档di中出现的频率。1.抽取相关文档的公共特征向量将用户选取的相关文档作为一个相关文档类,用C1表示。假设C1文档类中的相 关文档为dl,d2,,.dm(m为用户选取的相关文档数),则关键词tl,t2,t3,. . tn在C1类中 的权重分别为 本文档来自技高网
...

【技术保护点】
一种基于相关反馈和聚类的搜索引擎技术,其特征在于,包括以下步骤:步骤一:确定初始聚类类别数和各类别的初始聚类中心向量,包括:将用户从检索结果中选取的相关文档划为相关文档类,确定该相关文档类的初始聚类中心向量;所述初始聚类中心向量通过求取各关键词在该相关文档类各文档中的权重平均值得到;将不相关文档划分为一个或若干个不相关文档类,并确定所述各不相关文档类的初始聚类中心向量,包括:-选一个不相关文档作为第一个不相关文档类,并将该不相关文档的特征向量定义为所述不相关文档类的聚类中心向量;-分别计算其余不相关文档和上述不相关文档类的相似度,并根据所得相似度值将该不相关文档划分到与其最相近的当前某个不相关文档类中或划分到新的不相关文档类中,并将该不相关文档的特征向量定义为所述新的不相关文档类的聚类中心向量;步骤二:确定初始划分及最终聚类类别数;分别计算检索结果列表中用户未选取的文档与所述相关文档类和不相关文档类的相似度,根据相似度值的大小进行以下处理:-将该文档划分到与其最相近的当前某个文档类中;-或将该文档划分到新的文档类,并将该文档的特征向量定义为所述新的文档类的聚类中心向量;-或判断该文档属于内容重复的文档并将其删除;步骤三:去掉初始划分中的每个文档类中内容重复的文档;从该文档类中的第一个文档开始,计算该文档的特征向量与其后各个文档的特征向量之间的相似度,根据相似度值判断该文档是否与其它文档内容重复,如果内容重复,则从检索结果列表和该文档类中删除与该文档内容重复的文档;然后从更新后的检索结果列表中的下一个开始,计算该文档的特征向量与其后各文档的特征向量之间的相似度,据此判断并删除内容重复的文档;重复上述过程,直到检索结果列表的最后;步骤四:修改除不相关文档类以外的其它文档类的聚类中心向量;所述聚类中心向量通过求取各关键词在该文档类各文档中的权重平均值得到;步骤五:重新计算检索结果列表中用户未选中的其它文档的特征向量与当前每个文档类的聚类中心向量的相似度,并据此进行划分,包括:-将文档划分到与其最相近的文档类中;-如果某文档属于某一不相关文档类,而且该文档与查询的相关度排序靠后,则分别从不相关文档类和检索结果列表中删除该文档;步骤六:重复步骤四和五,直到满足终止条件。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李新叶
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:13[中国|河北]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1