【技术实现步骤摘要】
本专利技术涉及垂直搜索引擎引擎文本检索技术,尤其是涉及一种搜索引擎中包含 WEB对象的聚类方法。
技术介绍
随着互联网上数据的规模及复杂度以指数级增长,传统搜索引擎对于用户呈现杂 乱的搜索结果的表现方式已逐渐不能满足人们的需求。高细粒度的聚类方法针对这一问 题应运而生,目前研究机构以及大型互联网公司已经将高细粒度的聚类方法作为研究的热 点。 面向WEB对象的数据是指对网页经过简单前期处理但未对内容进行属性标注的 文本数据,这类数据描述大量对象信息,如产品,地址,事件等。虽然现在大部分垂直搜索系 统能一定程度上聚类搜索结果,但是这种聚类粒度远远没有达到很高的标准,在噪音的影 响下,使得用户亲和力降低很多。另一方面,提供高细粒度的搜索结果可以使垂直搜索引擎 提供附带的高质量的检索功能。 由于WEB对象各个属性在同一类别下具有一定的收敛性,差异性只会存在于个别 特殊的属性中,而且WEB对象一般是属于短文本信一息,因此利用这些联系可以设计出高 细粒度的聚类方法。
技术实现思路
本专利技术的目的在于提供一种搜索引擎中包含WEB对象的聚类方法。本专利技术解决其 技术问题采用的 ...
【技术保护点】
一种搜索引擎中包含WEB对象的聚类方法,其特征在于该方法的步骤如下: 1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志; 3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度; 4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性; 5)基于步骤1)、步骤2)、步骤3)、步骤4), ...
【技术特征摘要】
一种搜索引擎中包含WEB对象的聚类方法,其特征在于该方法的步骤如下1)根据垂直搜索引擎应用环境,对搜索结果中包含的WEB对象聚类结果高细粒度的要求,选择衡量WEB对象关联度的建模方法,构建一个针对WEB对象的信息检索聚类系统;2)基于步骤1)中关联度的建模方法,建立一种WEB对象表示特征标志;3)基于步骤2)中的特征标志,建立衡量词汇信息重要度和WEB对象的相似度;4)基于步骤3)中定义的词汇信息重要度和相似度,建立一个自适应的记录合并模型,结合词汇的信息分布模型和WEB对象的高相似度联合性;5)基于步骤1)、步骤2)、步骤3)、步骤4),在搜索引擎服务系统上建立WEB对象的信息聚类处理系统,实现垂直搜索引擎检索结果。2. 根据权利要求1所述的一种搜索引擎中包含WEB对象的聚类方法,,其特征在于所 述步骤1)的建模方法应将原始的WEB对象文本数据结构化,表示成计算机系统易理解与处 理的形式。3. 根据权利要求2所述的一种搜索引擎中包含WEB对象的聚类方法,其特征在于所 述步骤2)中特征标志建立的一个WEB对象实体特征的模型,构建WEB对象应具有以下特 点a)能够重点突出同一类WEB对象之间的关键特征,减少文本差异对聚类结果的影响;b) 能够突出不同WEB对...
【专利技术属性】
技术研发人员:陈珂,陈刚,寿黎但,胡天磊,盛振华,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。