网站内搜索词的聚类方法及装置制造方法及图纸

技术编号:15437321 阅读:92 留言:0更新日期:2017-05-25 19:28
本发明专利技术公开了一种网站内搜索词的聚类方法及装置,涉及信息技术领域,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。所述方法包括:首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。本发明专利技术适用于对网站内搜索词的分类。

Method and device for clustering search words in Web site

The invention discloses a method and a device for clustering search words in a website, which relates to the field of information technology, and can reduce the clustering error of the search words in the website and improve the clustering accuracy of the search words in the website. The method comprises the following steps: firstly, to obtain the corresponding web site content information; then search word clustering algorithm based on the initial adjustment of the web site content information corresponding to the last, according to the initial adjusted station search word clustering algorithm on the web search word classification. The invention is applicable to the classification of search words in a web site.

【技术实现步骤摘要】
网站内搜索词的聚类方法及装置
本专利技术涉及信息
,特别是涉及一种网站内搜索词的聚类方法及装置。
技术介绍
随着互联网技术的不断发展,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。尤其在内容丰富的网站中,当用户有目的地寻找目标内容但又无法直接从首页或导航页中直接找到时,这时用户就会求助于站内搜索。为了让用户可以更好地进行站内搜索,通常将站内搜索词进行聚类,聚类的作用是将意义相同或相近的站内搜索词放在同一个组内。这样就可以实现站内搜索词的聚类分析,能够更好地分析用户群体,用户需求等。目前,在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类。然而采用现有方式进行搜索词聚类时,由于在最初聚类时系统还没有进行过聚类,即不存在聚类过程的经验,从而使得调整后的初始搜索词聚类算法误差较大,进而导致前期站内搜索词聚类的结果将会与预期的聚类结果相比产生很大的差异,而前期聚类结果的不准确将会导致后续的聚类结果发生更大的差异,最终造成网站内搜索词的聚类误差较大,精度较低。
技术实现思路
有鉴于此,本专利技术提供一种网站内搜索词的聚类方法及装置,主要目的在于减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。依据本专利技术一方面,提供了一种网站内搜索词的聚类方法:包括:获取网站对应的网站内容信息;根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;根据调整后的搜索词聚类算法对所述网站的站内搜索词进行分类。依据本专利技术另一方面,提供一种网站内搜索词的聚类装置,包括:获取单元,用于获取网站对应的网站内容信息;调整单元,用于根据所述获取单元获取的网站内容信息调整所述网站对应的初始搜索词聚类算法;分类单元,用于根据所述调整单元调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术提供一种网站内搜索词的聚类方法及装置,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本专利技术实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种网站内搜索词的聚类方法的流程图;图2示出了本专利技术实施例提供的另一种网站内搜索词的聚类方法的流程图;图3示出了本专利技术实施例提供的一种网站内搜索词的聚类装置的结构示意图;图4示出了本专利技术实施例提供的另一种网站内搜索词的聚类装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种网站内搜索词的聚类方法,如图1所示,所述方法包括:101、获取网站对应的网站内容信息。其中,不同网站类别对应的网站内容信息不同。例如,对于购物类网站,网站内容信息可以为产品名称、产品类型、产品配置等,本专利技术实施例不做限定。对于新闻类网站,网站内容信息可以为新闻标题、新闻热点、新闻概要等,本专利技术实施例不做限定。对于天气预报类网站,网站内容信息可以为一周天气状况信息、出行指数信息等,本专利技术实施例不做限定。102、根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法。其中,初始搜索词聚类算法为预先为该网站配置的搜索词聚类算法,用于对所述网站的站内搜索词进行分类。例如,对于购物类网站,可以根据产品名称、产品类型、产品调整所述网站对应的初始搜索词聚类算法,对于本专利技术实施例,根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,与目前根据以往聚类过程的经验来改进站内搜索词聚类的算法相比,由于在进行初始搜索词聚类算法的调整时,还不存在以往聚类过程的经验,从而导致调整后的搜索词聚类算法误差较大,进而导致网站内搜索词的聚类误差较大的问题相比,可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。103、根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。其中,不同网站对应的站内搜索词不同。例如,对于购物类网站,站内搜索词可以为价格、质量、外观、形状、同类别产品价格等,此时,站内搜索词价格和同类别产品价格可以划分为一类,站内搜索词质量、外观、形状可以划分为一类。对于本专利技术实施例,具体的应用场景可以如下所示,但不限于此,包括:获取A旅游网站对应的网站内容信息为景点名称、景点价格、用户评价,然后根据网站内容信息景点名称、景点价格、用户评价调整该A旅游网站对应的初始搜索词聚类算法,最后根据调整后的A旅游网站对应的搜索词聚类算法,对A旅游网站中的站内搜索词进行分类,从而可以减少该A旅游网站的站内搜索词的聚类误差,提高A旅游网站的站内搜索词的聚类精度。本专利技术实施例提供的一种网站内搜索词聚类方法,首先,获取网站对应的网站内容信息;然后根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法,最后根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。与目前在对站内搜索词进行聚类时,通常是根据以往聚类过程的经验来改进站内搜索词聚类的算法,最终完成站内搜索词聚类相比,本专利技术实施例在通过搜索词聚类算法对所述网站的站内搜索词进行分类之前,首先通过网站对应的网站内容信息对搜索词聚类算法进行优化,使得搜索词聚类算法与网站的实际内容情况更加契合,从而可以减少网站内搜索词的聚类误差,提高网站内搜索词的聚类精度。本专利技术实施例提供了另一种域名解析信息的显示方法,下面如图2所示,所述方法包括:201、获取网站对应的网站内容信息。其中,不同网站类别对应的网站内容信息不同。例如,对于旅游类网站,网站内容信息可以为景点名称、景点价格、用户评价等,本专利技术实施例不做限定。对于游戏类网站,网站内容信息可以为游戏名称、玩家数量、热门程度等,本专利技术实施例不做限定。对于饮食类网站,网站内容信息可以为美食地点、用户点评等,本专利技术实施例不做限定。对于本专利技术实施例,步骤201具体可以包括:根据预置爬虫程序获取所述网站对应的网站内容信息。所述预置爬虫程序可以实时获取所述网站对应的网站本文档来自技高网...
网站内搜索词的聚类方法及装置

【技术保护点】
一种网站内搜索词的聚类方法,其特征在于,包括:获取网站对应的网站内容信息;根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。

【技术特征摘要】
1.一种网站内搜索词的聚类方法,其特征在于,包括:获取网站对应的网站内容信息;根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法;根据调整后的初始搜索词聚类算法对所述网站的站内搜索词进行分类。2.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法之前,所述还包括:根据预置过滤规则对所述网站内容信息进行过滤;所述根据所述网站内容信息调整所述网站对应的初始搜索词聚类算法包括:根据过滤后的网站内容信息调整所述网站对应的初始搜索词聚类算法。3.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述根据所述网站内容信息调整所述网站对应的搜索词聚类算法包括:按照预置机器学习算法对所述网站内容信息进行学习;根据所述学习结果调整所述网站对应的初始搜索词聚类算法。4.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述获取网站对应的网站内容信息包括:根据预置爬虫程序获取所述网站对应的网站内容信息。5.根据权利要求1所述的网站内搜索词的聚类方法,其特征在于,所述方法还包括:根据预置监测代码获取所述网站对...

【专利技术属性】
技术研发人员:张鹏霄冯鸳鹤
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1