一种基于HERITRIX和HTMLPARSER商品信息提取方法技术

技术编号:11643378 阅读:63 留言:0更新日期:2015-06-24 21:18
本发明专利技术公开了一种基于HERITRIX和HTMLPARSER商品信息提取方法,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritrix,准确抓取商品网页信息。本发明专利技术的一种基于HERITRIX和HTMLPARSER商品信息提取方法和现有技术相比,利用HtmlParser对Web页面进行解析,可提取出网页中的超链接,从而获取有用信息,具有提取速度快的优点;利用heritrix 扩展爬取逻辑,能准确抓取商品网页信息,改进爬取效率。

【技术实现步骤摘要】

本专利技术涉及计算机数据挖掘处理
,具体地说是一种基于HERITRIX和HTMLPARSER商品信息提取方法
技术介绍
网页解析,即程序自动分析网页内容、获取信息,从而进一步处理信息。网页解析是实现网络爬虫获取数据中不可缺少而且十分重要的一环,每个网页中都存在很多超链接,很多网页的信息都存在这些超链接中,如何有效的获取这些超链接成为Web挖掘的一个重要环节。随着信息多元化的发展,面向所有用户的通用搜索引擎已经不能满足特定用户的更深入、专业、详细的查询需求,垂直搜索引擎应运而生,它是相对通用搜索引擎的信息量大,查询不准确,深度不够等提出来的新的搜索引擎服务模式,网络爬虫在搜索引擎中起到了非常重要的作用,通过将htmlParse和Heritrix的配合,是进行网络信息收集的有利工具,可以有效的提取商品网页的关键信息。
技术实现思路
本专利技术的技术任务是提供一种基于HERITRIX和HTMLPARSER商品信息提取方法。本专利技术的技术任务是按以下方式实现的,该商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息扩展爬取逻辑,修改模块HeritriX,准确抓取商品网页信息。所述的用HtmlParser提取网页中的超链接的步骤如下: 步骤一:导入HtmlParser包; 步骤二:将页面信息传入htmlparser并且设置页面编码格式; 步骤三:获取parser的nodelist ; 步骤四:循环得到nodelist,nodelist里面存着的信息就是页面商品信息的url。所述的用heritrix扩展爬取逻辑,修改模块Heritrix,实现对同一个host多线程抓取。本专利技术的一种基于HERITRIX和HTMLPARSER商品信息提取方法和现有技术相比,利用HtmlParser对Web页面进行解析,可提取出网页中的超链接,从而获取有用信息,具有提取速度快的优点;利用heritrix扩展爬取逻辑,能准确抓取商品网页信息,改进爬取效率。【附图说明】附图1为利用HtmlParser爬取信息示意图。【具体实施方式】实施例1: 该商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritrix,实现对同一个host多线程抓取,准确抓取商品网页信息。所述的用HtmlParser提取网页中的超链接的步骤如下: 步骤一:导入HtmlParser包; 步骤二:将页面信息传入htmlparser并且设置页面编码格式; 步骤三:获取parser的nodelist ; 步骤四:循环得到nodelist,nodelist里面存着的信息就是页面商品信息的url。实施例2: 该商品信息提取方法是:应用Heritrix扩展爬取逻辑,修改模块Heritrix能准确抓取商品网页信息;在包 org.archive, crawler, extrator 中添加类 ExtractorForPcOnline解析网页内容并且选出候选地址; 通过扩展queue-assignment-policy实现对同一个host多线程抓取; 用HtmlParser提取网页中的超链接,提取商品信息: 步骤一:导入 HtmlParser 包 import org.htmlParser.util.* ; 步骤二:将页面信息传入htmlparser并且设置页面编码格式;Parser parser = new Parser(url);Parser.setEncoding(pageEncoding); 步骤三:获取parser的nodelist ;Nodelist=parser.parser(NewNodeListFilter(LinkTag.class)); 步骤四:循环得到nodelist,nodelist里面存着的信息就是页面商品信息的url ;循环过程中 LinkName = (LinkTag) nodelist.elementAt (i).getLinkText O 就是获取页面连接的名字。名词解释: Heritrix是一个由java开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。htmlparser是一个纯的java写的html (标准通用标记语言下的一个应用)解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。url:统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。通过上面【具体实施方式】,所述
的技术人员可容易的实现本专利技术。但是应当理解,本专利技术并不限于上述的几种【具体实施方式】。在公开的实施方式的基础上,所述
的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。【主权项】1.一种基于HERITRIX和HTMLPARSER商品信息提取方法,其特征在于,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritriX扩展爬取逻辑,修改模块Heritrix,准确抓取商品网页信息。2.根据权利要求1所述的一种基于HERITRIX和HTMLPARSER商品信息提取方法,其特征在于,所述的用HtmlParser提取网页中的超链接的步骤如下: 步骤一:导入HtmlParser包; 步骤二:将页面信息传入htmlparser并且设置页面编码格式; 步骤三:获取parser的nodelist ; 步骤四:循环得到nodelist,nodelist里面存着的信息就是页面商品信息的url。3.根据权利要求1所述的一种基于HERITRIX和HTMLPARSER商品信息提取方法,其特征在于,所述的用heritrix扩展爬取逻辑,修改模块Heritrix,实现对同一个host多线程抓取。【专利摘要】本专利技术公开了一种基于HERITRIX和HTMLPARSER商品信息提取方法,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritrix,准确抓取商品网页信息。本专利技术的一种基于HERITRIX和HTMLPARSER商品信息提取方法和现有技术相比,利用HtmlParser对Web页面进行解析,可提取出网页中的超链接,从而获取有用信息,具有提取速度快的优点;利用heritrix 扩展爬取逻辑,能准确抓取商品网页信息,改进爬取效率。【IPC分类】G06F17-30, G06Q30-00【公开号】CN104731909【申请号】CN201510129487【专利技术人】焦毓葳, 徐宏伟, 崔乐乐 【申请人】浪潮集团有限公司【公开日】2015年6月24日【申请日】2015年3月24日本文档来自技高网
...

【技术保护点】
一种基于HERITRIX和HTMLPARSER商品信息提取方法,其特征在于,所述的商品信息提取方法是:用HtmlParser对Web页面进行解析,提取出网页中的超链接,从而获取有用信息;用heritrix扩展爬取逻辑,修改模块Heritrix,准确抓取商品网页信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:焦毓葳徐宏伟崔乐乐
申请(专利权)人:浪潮集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1