一种站点资源管理方法及装置制造方法及图纸

技术编号:8594061 阅读:230 留言:0更新日期:2013-04-18 07:16
本发明专利技术提出了一种站点资源管理方法,包括以下步骤:对web站点进行数据挖掘以获取web站点中各个页面;获取web站点各个页面的分块特征;将具有强分块特征的页面分为不同类型的页面;获取各个页面的分簇特征并根据分簇特征将各个页面分组;根据各个分组中具有强分块特征的页面的类型确定分组中的页面的类型。本发明专利技术还提出了一种站点资源管理装置。本发明专利技术根据网页结构等因素针对网页的网页类型进行分类,为对站点网页资源进行管理、分类提供了判断依据。

【技术实现步骤摘要】

本专利技术涉及互联网应用
,特别涉及一种站点资源管理方法及装置
技术介绍
随着互联网技术,尤其是智能搜索、智能广告推荐等技术的发展,对于网站进行分 析、归类的需求越来越被重视。如此一来,就需要一种将站点的网页资源自动进行分类及组 织的管理方法。现有技术中,通常根据网页的内容对网页的类型进行划分,但因计算机自身 并不具有主动判断能力,使用这一方法的效率不高。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商 业选择。为此,本专利技术的第一个目的在于提出一种站点资源管理方法,根据网页结构等因 素针对网页的网页类型进行分类,为对站点网页资源进行管理、分类提供了判断依据。本发 明的第二个目的在于提出一种站点资源管理装置。为达到上述目的,本专利技术第一方面的实施例提出了一种站点资源管理方法,包括 以下步骤对web站点进行数据挖掘以获取所述web站点的各个页面;获取所述各个页面 的分块特征;将具有强分块特征的页面分为不同类型的页面;获取所述各个页面的分簇特 征并根据所述分簇特征将所述各个页面分组;根据各个分组中具有强分块特征的页面的类 型确定所述分组中本文档来自技高网...

【技术保护点】
一种站点资源管理方法,其特征在于,包括以下步骤:对web站点进行数据挖掘以获取所述web站点的各个页面;获取所述各个页面的分块特征;将具有强分块特征的页面分为不同类型的页面;获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组;以及根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。

【技术特征摘要】
1.一种站点资源管理方法,其特征在于,包括以下步骤 对web站点进行数据挖掘以获取所述web站点的各个页面; 获取所述各个页面的分块特征; 将具有强分块特征的页面分为不同类型的页面; 获取所述各个页面的分簇特征并根据所述分簇特征将所述各个页面分组;以及 根据各个分组中具有强分块特征的页面的类型确定所述分组中的页面的类型。2.根据权利要求1所述的方法,其特征在于,所述强分块特征包括导航块、索引块、图片块、文本块。3.根据权利要求1或2所述的方法,其特征在于,所述不同类型的页面包括首页页面、索引页页面、列表页页面、正文页页面、封面页页面。4.根据权利要求1或2所述的方法,其特征在于,获取所述各个页面的分簇特征包括通过通配所述各个页面的URL pattern获取所述各个页面的分簇特征。5.根据权利要求4所述的方法,其特征在于,所述通配包括对所述各个页面的URLpattern在不同粒度上的通配。6.根据权利要求4所述的方法,其特征在于,获取所述各个页面的分簇特征包括通过对所述各个页面进行Xpath分簇而获取所述各个页面的分簇特征。7.根据权利要求6所述的方法,其特征在于,在对所述各个页面进行Xpath分簇时,对所述各个页面的目标节点的Xpath进行签名。8.根据权利要求7所述的方法,其特征在于,所述目标节点包括div节点,ul节点、a节点,视频节点和图片节点。9.一种站点资源管理装置,其特征在于,包括 ...

【专利技术属性】
技术研发人员:崔建伟李伟刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1