【技术实现步骤摘要】
【技术保护点】
网络搜索中的基于链接层次分类的主题爬取方法,其特征在于包括以下步骤:(1)构造训练集:选定一个相关主题的网站,爬取该网站下的所有网页并保留网页间的互连关系;标注该网站下的若干主题网页,从标注的该网站下的主题网页出发,根据不同链接所属 层次不同构造由链接组成的若干类构成的训练集,其中相同层次的链接归为一个类;(2)将种子网页加入待爬队列;(3)爬取待爬队列中所有URL,解析新爬取下的网页,提取出所有的链接;(4)对于每一个新提取的链接,根据训练集进 行分类,然后根据所属的链接类别确定该链接的优先级,将其URL加入相应的优先队列;(5)按照顺序查看优先队列,取优先级最高的非空队列中的URL放入待爬队列中,跳到第(3)步;其它队列保持不变;(6)优先队列全部为空或到达指定爬 取循环次数则爬取结束。
【技术特征摘要】
【专利技术属性】
技术研发人员:张铭,周毅,江云亮,
申请(专利权)人:北京大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。