当前位置: 首页 > 专利查询>浙江大学专利>正文

搜索引擎中包含WEB对象的聚类方法技术

技术编号:4115963 阅读:277 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种搜索引擎中包含WEB对象的聚类方法。通过挖掘词汇间的树状概率层次关系,计算词汇在数据集中的信息分布集中度,作为分辨对象的标志。该方法建立一个新型的信息传递有向无环图模型,准确提取数据中对辨别对象起到关键作用的特征词汇,提高相似度计算的精确性,并且建立一种新型的自适应记录合并模型,有效地提高各个记录簇中记录间高相似度比例,减少噪音对合并过程的影响,具有很高的准确性,健壮性和通用性。本发明专利技术充分利用了垂直搜索引擎环境中检索系统的现有研究和实现成果,可以方便快捷的提高WEB对象的聚类结果细粒度,并且不依赖于一种特有的文本检索技术,使用者根据应用需求选择最合适的聚类合并技术,提供最好的性能。

【技术实现步骤摘要】

本专利技术涉及垂直搜索引擎引擎文本检索技术,尤其是涉及一种搜索引擎中包含 WEB对象的聚类方法。
技术介绍
随着互联网上数据的规模及复杂度以指数级增长,传统搜索引擎对于用户呈现杂 乱的搜索结果的表现方式已逐渐不能满足人们的需求。高细粒度的聚类方法针对这一问 题应运而生,目前研究机构以及大型互联网公司已经将高细粒度的聚类方法作为研究的热 点。 面向WEB对象的数据是指对网页经过简单前期处理但未对内容进行属性标注的 文本数据,这类数据描述大量对象信息,如产品,地址,事件等。虽然现在大部分垂直搜索系 统能一定程度上聚类搜索结果,但是这种聚类粒度远远没有达到很高的标准,在噪音的影 响下,使得用户亲和力降低很多。另一方面,提供高细粒度的搜索结果可以使垂直搜索引擎 提供附带的高质量的检索功能。 由于WEB对象各个属性在同一类别下具有一定的收敛性,差异性只会存在于个别 特殊的属性中,而且WEB对象一般是属于短文本信一息,因此利用这些联系可以设计出高 细粒度的聚类方法。
技术实现思路
本专利技术的目的在于提供一种搜索引擎中包含WEB对象的聚类方法。本专利技术解决其 技术问题采用的技术方案的步骤如下 本文档来自技高网...

【技术保护点】
一种搜索引擎中包含WEB对象的聚类方法,其特征在于该方法的步骤如下:    1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;    3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;    4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;    5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上...

【技术特征摘要】
一种搜索引擎中包含WEB对象的聚类方法,其特征在于该方法的步骤如下1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上建立WEB对象的信息聚类处理系统,实现垂直搜索引擎检索结果。2. 根据权利要求1所述的一种搜索引擎中包含WEB对象的聚类方法,,其特征在于所 述步骤1)的建模方法应将原始的WEB对象文本数据结构化,表示成计算机系统易理解与处 理的形式。3. 根据权利要求2所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤2)中特征标志建立的一个WEB对象实体特征的模型,构建WEB对象应具有以下特 点a)能够重点突出同一类WEB对象之间的关键特征,减少文本差异对聚类结果的影响;b) 能够突出不同WEB对...

【专利技术属性】
技术研发人员:陈珂陈刚寿黎但胡天磊盛振华
申请(专利权)人:浙江大学
类型:发明
国别省市:86[中国|杭州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1