下载一种基于HERITRIX和HTMLPARSER商品信息提取方法的技术资料

文档序号:11643378

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明公开了一种基于HERITRIX和HTMLPARSER商品信息提取方法,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritri...
该专利属于浪潮集团有限公司所有,仅供学习研究参考,未经过浪潮集团有限公司授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。