下载一种网页内容抓取方法及装置的技术资料

文档序号:8656024

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明公开一种网页内容抓取方法及装置。所述方法包括:获取网页的URL信息;识别所述URL信息中包含的路径信息和参数信息;对于路径信息相同的URL信息进行聚类,得到包含多个URL信息的URL信息集;将所述URL信息集中,在每个URL信息中均出...
该专利属于人民搜索网络股份公司所有,仅供学习研究参考,未经过人民搜索网络股份公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。