当前位置: 首页 > 专利查询>北京大学专利>正文

网络搜索中的基于链接层次分类的主题爬取方法技术

技术编号:3494917 阅读:294 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种网络搜索中的基于链接层次分类的主题爬取方法。该方法包括以下步骤:(1)构造训练集;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新的链接根据训练集分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的所有URL放入待爬队列中,跳到第(3)步,其它队列保持不变;(6)优先队列全部为空或到达指定爬取循环次数则爬取结束。本发明专利技术能够有效利用锚文字和URL等有用信息分析链接的层次性,在深层次网页拓扑上展开分析和爬取。

【技术实现步骤摘要】

【技术保护点】
网络搜索中的基于链接层次分类的主题爬取方法,其特征在于包括以下步骤:(1)构造训练集:选定一个相关主题的网站,爬取该网站下的所有网页并保留网页间的互连关系;标注该网站下的若干主题网页,从标注的该网站下的主题网页出发,根据不同链接所属 层次不同构造由链接组成的若干类构成的训练集,其中相同层次的链接归为一个类;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新提取的链接,根据训练集进 行分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的URL放入待爬队列中,跳到第(3)步;其它队列保持不变;(6)优先队列全部为空或到达指定爬 取循环次数则爬取结束。

【技术特征摘要】

【专利技术属性】
技术研发人员:张铭周毅江云亮
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1