下载一种网络爬虫去重特征值的提取方法和装置的技术资料

文档序号:10320103

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明公开了一种网络爬虫去重特征值的提取方法,包括:步骤一,根据目标网站的统一资源定位符URL域名和URL种子特征生成正则表达式;步骤二,从目标网站的URL地址中捕获与所述正则表达式匹配的字符串;步骤三,对所述字符串进行预定的格式转换,得到...
该专利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司所有,仅供学习研究参考,未经过北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。