一种自动结构化数据的电商网站主题爬虫方法技术

技术编号：17033020 阅读：187 留言：0更新日期：2018-01-13 19:28

本发明专利技术涉及一种自动结构化数据的电商网站主题爬虫方法，其特征在于包括以下步骤：传入入口地址以触发工作系统，所述工作系统中设有模块分析系统；模块分析系统进入工作状态，抓取工作也同期开启，以等待主线程的任务；模块分析系统对网站的新旧进行判断，如是旧网站则使用先前分析产生的规则进行分析解析；如是新网站则交由模块分析系统内的结构分析器，结构分析器根据预设的匹配模板，逐步分析出列表数据、目标字段的位置信息，并将产生的XPath存储在分析器实例中；最后进行爬虫的运作流程以完成结构化。该方法不但能够快速的获得多个站点的大量数据，而且能将焦点更多地放在结构化数据的处理和信息挖掘上。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动结构化数据的电商网站主题爬虫方法
本专利技术涉及一种自动结构化数据的电商网站主题爬虫方法。
技术介绍
当前对于拥有海量数据的互联网，经常需要采集多个源站的结构化数据以用于数据分析、挖掘，而为不同网站定制数据采集程序的人工成本很高，特别是以电商类网站为例，其具有统一层次结构、垂直领域拥有行业语料和规范的特点。为了快速获得多个站点的大量数据，将焦点更多地放在结构化数据的处理和信息挖掘，一种自动结构化网站数据的主题爬虫方法的开发设计十分有必要。
技术实现思路
本专利技术针对上述问题，提出了一种自动结构化数据的电商网站主题爬虫方法。该方法不但能够快速的获得多个站点的大量数据，而且能将焦点更多地放在结构化数据的处理和信息挖掘上；其适用于主题爬虫和数据采集领域，特别是电商主题的自动化采集和数据处理方案。为了达到上述目的，本专利技术一种自动结构化数据的电商网站主题爬虫方法，主要包括以下步骤：首先，传入入口地址以触发工作系统，即传入分类页以进行引擎启动，所述工作系统中设有模块分析系统；第二，引擎启动之后，模块分析系统进入工作状态，抓取工作也同期开启，以等待主线程的任务；第三，...
一种自动结构化数据的电商网站主题爬虫方法

【技术保护点】
一种自动结构化数据的电商网站主题爬虫方法，其特征在于，主要包括以下步骤：首先，传入入口地址以触发工作系统，即传入分类页以进行引擎启动，所述工作系统中设有模块分析系统；第二，引擎启动之后，模块分析系统进入工作状态，抓取工作也同期开启，以等待主线程的任务；第三，模块分析系统对网站的新旧进行判断，如果是旧网站则直接进入到分析器实例中以使用先前分析产生的规则进行分析解析；如果是新网站则交由模块分析系统内的结构分析器，结构分析器根据预设的匹配模板，逐步分析出列表数据、目标字段的位置信息，并将产生的XPath存储在分析器实例中；第四，进行爬虫的运作流程，根据层级提交给分析器解析出所需字段，进而完成结构化。

【技术特征摘要】
1.一种自动结构化数据的电商网站主题爬虫方法，其特征在于，主要包括以下步骤：首先，传入入口地址以触发工作系统，即传入分类页以进行引擎启动，所述工作系统中设有模块分析系统；第二，引擎启动之后，模块分析系统进入工作状态，抓取工作也同期开启，以等待主线程的任务；第三，模块分析系统对网站的新旧进行判断，如果是旧网站则直接进入到分析器实例中以使用先前分析产生的规则进行分析解析；如果是新网站则交由模块分析系统内的结构分析器，结构分析器根据预设的匹配模板，逐步分析出列表数据、目标字段的位置信息，并将产生的XPath存储在分析器实例中；第四，进行爬虫的运作流程，根据层级提交给分析器解析出所需字段，进而完成结构化。2.根据权利要求1所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在于，所述抓取工作的对象分为静态页面和动态页面。3.根据权利要求2所述的一种自动结构化数据的电商网站主题爬虫方法，其特征在...

【专利技术属性】
技术研发人员：张倩，林安成，廖秀秀，詹瑾，唐四云，刘博良，曾繁星，
申请(专利权)人：广东技术师范学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人