一种基于HERITRIX和HTMLPARSER商品信息提取方法技术

技术编号：11643378 阅读：63 留言：0更新日期：2015-06-24 21:18

本发明专利技术公开了一种基于HERITRIX和HTMLPARSER商品信息提取方法，所述的商品信息提取方法是：用HtmlParser对Web页面进行解析，提取出网页中的超链接，从而获取有用信息；用heritrix扩展爬取逻辑，修改模块Heritrix，准确抓取商品网页信息。本发明专利技术的一种基于HERITRIX和HTMLPARSER商品信息提取方法和现有技术相比，利用HtmlParser对Web页面进行解析，可提取出网页中的超链接，从而获取有用信息，具有提取速度快的优点；利用heritrix 扩展爬取逻辑，能准确抓取商品网页信息，改进爬取效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机数据挖掘处理
，具体地说是一种基于HERITRIX和HTMLPARSER商品信息提取方法。
技术介绍
网页解析，即程序自动分析网页内容、获取信息，从而进一步处理信息。网页解析是实现网络爬虫获取数据中不可缺少而且十分重要的一环，每个网页中都存在很多超链接，很多网页的信息都存在这些超链接中，如何有效的获取这些超链接成为Web挖掘的一个重要环节。随着信息多元化的发展，面向所有用户的通用搜索引擎已经不能满足特定用户的更深入、专业、详细的查询需求，垂直搜索引擎应运而生，它是相对通用搜索引擎的信息量大，查询不准确，深度不够等提出来的新的搜索引擎服务模式，网络爬虫在搜索引擎中起到了非常重要的作用，通过将htmlParse和Heritrix的配合，是进行网络信息收集的有利工具，可以有效的提取商品网页的关键信息。
技术实现思路
本专利技术的技术任务是提供一种基于HERITRIX和HTMLPARSER商品信息提取方法。本专利技术的技术任务是按以下方式实现的，该商品信息提取方法是:用HtmlParser对Web页面进行解析，提取出网页中的超链接，从而获取有用信息扩展爬取逻辑，修改模块HeritriX，准确抓取商品网页信息。所述的用HtmlParser提取网页中的超链接的步骤如下: 步骤一:导入HtmlParser包；步骤二:将页面信息传入htmlparser并且设置页面编码格式；步骤三:获取parser的nodelist ；步骤四:循环得到nodelist，nodelist里面存着的信息就是页面商品信息的url。所述的用her...

【技术保护点】
一种基于HERITRIX和HTMLPARSER商品信息提取方法，其特征在于，所述的商品信息提取方法是：用HtmlParser对Web页面进行解析，提取出网页中的超链接，从而获取有用信息；用heritrix扩展爬取逻辑，修改模块Heritrix，准确抓取商品网页信息。

【技术特征摘要】

【专利技术属性】
技术研发人员：焦毓葳，徐宏伟，崔乐乐，
申请(专利权)人：浪潮集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人