一种基于半监督聚类的查询扩展方法技术

技术编号:9198281 阅读:120 留言:0更新日期:2013-09-26 02:28
本发明专利技术提供了一种基于半监督聚类的查询扩展方法,包括如下步骤:(1)查询似然估计语言模块对用户查询进行初次检索,返回检索结果的前n个文档;(2)对初次检索结果中的前k个文档进行人工标注,分成相关文档集与不相关文档集两类;(3)通过约束和距离融合的半监督聚类算法对前n个文档进行分析,提取与查询相关的文档作为反馈文档;(4)根据反馈文档,用扩展词选取模块选取扩展词,将扩展词和原始查询组成新的查询。本发明专利技术通过对少量标注文档与查询相关性的学习,能够较准确的估计出大量未知文档与查询的相关性,提高了反馈文档的质量,从而有效的提高了检索的查全率和查准率。

【技术实现步骤摘要】

【技术保护点】
一种基于半监督聚类的查询扩展方法,其特征在于:步骤1:查询似然估计语言模块对用户查询进行初次检索,返回检索结果的前n个文档;步骤2:对初次检索结果中的前k个文档进行人工标注,分成相关文档集与不相关文档集两类;步骤3:通过约束和距离融合的半监督聚类算法对前n个文档进行分析,提取与查询相关的文档作为反馈文档;步骤4:根据反馈文档,用扩展词选取模块选取扩展词,将扩展词和原始查询组成新的查询。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨静刘宁张健沛
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1