【技术实现步骤摘要】
本专利技术涉及互联网信息检索
,尤其涉及一种基于相关反馈和聚类的Web 检索结果优化方法。
技术介绍
目前,搜索引擎大都是基于关键词来进行索引和检索的,根据用户输入的关键词 列表,搜索引擎查找索引库,将匹配的文档按照与用户查询的相关度的不同排序显示。由于 关键词具有一词多义现象,而且用户往往只输入很少的关键词进行检索,使得搜索引擎返 回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档,用户必须逐个浏览检 索结果列表以找到相关文档,其中还有许多内容重复的网页,从这样的检索结果中浏览信 息会浪费用户许多时间和大量精力。为了方便用户的浏览,一些研究人员将自动聚类技术用于Web信息检索结果的类 别划分,将具有相似特征(例如同属于一个主题)的文档放在同一组,以便于用户缩小查找 范围,只在自己感兴趣的少数组中查找和浏览所关心的文档。但是对检索结果的自动聚类 没有考虑与用户的相关性,导致检索结果不能反映用户的特定意愿及专业领域,用户也不 能根据自己的需要和兴趣选择文档聚类的方式。另外,在Web搜索引擎上其检索结果数量 巨大,已有的自动聚类研究是对全部检索结果包括 ...
【技术保护点】
一种基于相关反馈和聚类的搜索引擎技术,其特征在于,包括以下步骤:步骤一:确定初始聚类类别数和各类别的初始聚类中心向量,包括:将用户从检索结果中选取的相关文档划为相关文档类,确定该相关文档类的初始聚类中心向量;所述初始聚类中心向量通过求取各关键词在该相关文档类各文档中的权重平均值得到;将不相关文档划分为一个或若干个不相关文档类,并确定所述各不相关文档类的初始聚类中心向量,包括:-选一个不相关文档作为第一个不相关文档类,并将该不相关文档的特征向量定义为所述不相关文档类的聚类中心向量;-分别计算其余不相关文档和上述不相关文档类的相似度,并根据所得相似度值将该不相关文档划分到与其最 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:李新叶,
申请(专利权)人:华北电力大学保定,
类型:发明
国别省市:13[中国|河北]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。