基于相关反馈和聚类的搜索引擎技术制造技术

技术编号：3987856 阅读：398 留言：0更新日期：2012-04-11 18:40

本发明专利技术同时利用用户相关反馈信息和相关度排序指导检索结果的聚类，使检索结果的最终划分符合用户查询需求；在聚类过程中去除了大量与用户不相关的文档和重复网页，提高了聚类速度，同时优化了检索结果。在聚类过程中，与用户不相关的一类聚簇不修改聚类中心，确保了不会在不相关文档聚簇中因引入噪声而丢掉与用户相关的结果文档。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网信息检索
，尤其涉及一种基于相关反馈和聚类的Web 检索结果优化方法。
技术介绍
目前，搜索引擎大都是基于关键词来进行索引和检索的，根据用户输入的关键词列表，搜索引擎查找索引库，将匹配的文档按照与用户查询的相关度的不同排序显示。由于关键词具有一词多义现象，而且用户往往只输入很少的关键词进行检索，使得搜索引擎返回的搜索结果列表通常包含了很多主题不相关、混杂在一起的文档，用户必须逐个浏览检索结果列表以找到相关文档，其中还有许多内容重复的网页，从这样的检索结果中浏览信息会浪费用户许多时间和大量精力。为了方便用户的浏览，一些研究人员将自动聚类技术用于Web信息检索结果的类别划分，将具有相似特征(例如同属于一个主题)的文档放在同一组，以便于用户缩小查找范围，只在自己感兴趣的少数组中查找和浏览所关心的文档。但是对检索结果的自动聚类没有考虑与用户的相关性，导致检索结果不能反映用户的特定意愿及专业领域，用户也不能根据自己的需要和兴趣选择文档聚类的方式。另外，在Web搜索引擎上其检索结果数量巨大，已有的自动聚类研究是对全部检索结果包括...

【技术保护点】
一种基于相关反馈和聚类的搜索引擎技术，其特征在于，包括以下步骤：步骤一：确定初始聚类类别数和各类别的初始聚类中心向量，包括：将用户从检索结果中选取的相关文档划为相关文档类，确定该相关文档类的初始聚类中心向量；所述初始聚类中心向量通过求取各关键词在该相关文档类各文档中的权重平均值得到；将不相关文档划分为一个或若干个不相关文档类，并确定所述各不相关文档类的初始聚类中心向量，包括：－选一个不相关文档作为第一个不相关文档类，并将该不相关文档的特征向量定义为所述不相关文档类的聚类中心向量；－分别计算其余不相关文档和上述不相关文档类的相似度，并根据所得相似度值将该不相关文档划分到与其最相近的当前某个不相关...

【技术特征摘要】

【专利技术属性】
技术研发人员：李新叶，
申请(专利权)人：华北电力大学保定，
类型：发明
国别省市：13[中国|河北]

全部详细技术资料下载我是这个专利的主人