一种垂直业务信息的智能爬虫框架系统技术方案

技术编号:20545987 阅读:25 留言:0更新日期:2019-03-09 18:55
本发明专利技术公开了一种垂直业务信息的智能爬虫框架系统,它是一个可视化的HTTP客户端爬虫框架系统,包括启始页、解析列表页、打开和解析内容页、打开下页,所述解析列表页包括:搜索输入框、URL输入框、下载器、模块分析、任务列表、结果输出和列表页;所述打开和解析内容页包括:HTML列表分析、文档链接垂直列表和数据识别摆放和点击选取。本发明专利技术通过搜索输入框和URL输入框输入要爬取的网站点击回车键命令后,启动一个高性能的HTTP客户端,快速智能自动识别网页的结构,快速开始目标网站的信息爬取,减少人工干预的时间成本,通过智能爬虫让企业更专注于垂直业务的分析,节约数据采集成本。

An Intelligent Crawler Framework System for Vertical Service Information

The invention discloses an intelligent crawler framework system for vertical business information, which is a visual HTTP client crawler framework system, including start page, parse list page, open and parse content page and open the next page. The parse list page includes: search input box, URL input box, downloader, module analysis, task list, result output and list page. Open and parse content pages include HTML list analysis, vertical list of document links, data identification placement and click selection. The invention starts a high-performance HTTP client after inputting the return key command of the website to be crawled into the search input box and the URL input box, identifies the structure of the web page quickly and intelligently, starts the information crawling of the target website quickly, reduces the time cost of manual intervention, and enables the enterprise to focus more on the analysis of vertical business through the intelligent crawler, thus saving the cost of data acquisition.

【技术实现步骤摘要】
一种垂直业务信息的智能爬虫框架系统
本专利技术涉及搜索引擎
,特别涉及一种垂直业务信息的智能爬虫框架系统。
技术介绍
垂直搜索业务的搜索引擎,前期大部分的信息都来源于业务相关的网站和新型的微信小程序等,针对这些信息的爬取是开展垂直业务分析的基础。从大量业务网站的形态分析来看,绝大部分的信息展示形式都是包含信息标题的列表以及信息的内容,完成这两个方面信息的基本满足对业务信息的需求。垂直业务信息的智能爬虫框架技术的定位针对于垂直搜索行业,需要对目标网站的信息爬取,会产生较大的时间成本,浪费数据采集成本的时间。因此,专利技术一种垂直业务信息的智能爬虫框架系统来解决上述问题很有必要。
技术实现思路
本专利技术的目的在于提供一种垂直业务信息的智能爬虫框架系统,HTML列表分析是一个顶点的连接点,主要将需要搜索的众多连接点整顿成列表,进而能够组成一个聚焦的网页,文档链接垂直列表和数据识别摆放将所需要链接端进行梳理和分列摆放,进而方便点击选取需要搜索的文本命令,当点击过后,进而通过爬虫采集端对网页进行爬取,主要通过全流程的框架技术,加上自动识别通用的列表规则,能快速采集目标网站,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种垂直业务信息的智能爬虫框架系统,包括启始页、解析列表页、打开和解析内容页和打开下页,所述解析列表页包括:搜索输入框、URL输入框、下载器、模块分析任务列表、结果输出和列表页,所述打开和解析内容页包括:HTML列表分析、文档链接垂直列表和数据识别摆放和点击选取,具体:启始页:通过启始页获取采集任务要聚焦的网站;解析列表页:搜索输入框用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容,URL输入框用于模式或称协议、服务器名称或IP地址、路径和文件名的搜索方式,用于网站和HTTP的网络;下载器用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面;模块分析和任务列表相结合,模块分析用于分析页面中分类列表信息和详细内容链接列表信息判断链接是否已经被下载,是则记录避免重复的页面被下载,否则加入到任务列表中继续往下执行,由上得到结果输出得到列表页;打开和解析内容页:由解析列表页中得到列表页,经HTML列表分析得到文档链接垂直列表打开详细内容链接进行数据识别摆放,直到该页详细内容链接全部被打开处理;打开下页:由上述采集完成后,判断是否有下一页,进行点击选取进入下一个采集页面,循环前面的解析列表页、打开和解析内容页和打开下页步骤直到没有下一页为止。优选的,所述列表页输出端与HTML列表分析电性连接,所述HTML列表分析与文档链接垂直列表和数据识别摆放电性连接,所述文档链接垂直列表和数据识别摆放输出端均与点击选取电性连接。优选的,所述启始页设置起始的网页,采集目标的入口。优选的,所述解析列表页设置为搜索输入框、URL输入框和下载器、模块分析、任务列表、结果输出、列表页和HTML列表分析,所述搜索输入框和URL输入框均与下载器电性连接,下载器均与模块分析和任务列表电性连接,所述解析模块分析和任务列表均与结果输出电性连接,结果输出与解析列表页电性连接。优选的,所述列表页与HTML列表分析电性连接,HTML列表分析均与文档链接垂直列表和数据识别摆放电性连接。优选的,所述点击选取用于点击网页按钮或文本链接打开下一个网页,应用于爬虫管理器的搜索方式,所述点击选取与打开下页电性连接。本专利技术的技术效果和优点:1、本专利技术通过点击回车键命令后,通过下载器用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面,模块分析用于避免重复的页面被下载,应用端可以对这些已经完成的请求进行跟踪,从而下载器就可以据此来调节自己的下载速度,任务列表用于排序未被下载的页面,将搜索输入框和URL输入框内部输入的文本或网站信息进行垂直排序,然后将排序后的结果输出,然后通过垂直的列表页对搜索出的文档进行上下排序;2、本专利技术垂直业务信息的智能爬虫处理的流程是:一、输入起始URL进入含列表的启始页,二、智能爬虫框架系统会通过基于HTML标签语言解析该启始列表页,包括解析起始页的分类列表、起始页的详细内容列表和起始页的分页器是否存在下一页,通过规则识别出模板循环部分,提取详细内容列表的链接放进队列,完成列表页的处理,三、随后依次对队列的详细内容链接地址进行打开和解析内容页并做相关的数据采集、四、系统判断是否有下一页,如果存在则进入列表下一页,然后循环前面所述的一至四的步骤,直至循环到最后一页将结束爬取任务;3、本专利技术通过设有列表页,HTML列表分析是一个顶点的连接点,主要将需要搜索的众多连接点整顿成列表,进而能够组成一个聚焦的网页,文档链接垂直列表和数据识别摆放将所需要链接端进行梳理和分列摆放,进而方便点击选取需要搜索的文本命令,当点击过后,进而通过爬虫数据端对网页进行爬取,主要通过全流程的框架技术,加上自动识别通用的列表规则,能快速采集目标网站;4、本专利技术通过设有启始页,搜索输入框用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容,或者在URL输入框用于模式或称协议、服务器名称或IP地址、路径和文件名的搜索方式,用于网站和HTTP的网络,方便搜索大部分的网络站点,也能利用便于不同的网络区域来对数据网络进行选取,方便构建良好的垂直业务信息的智能爬虫网络框架。附图说明图1为本专利技术的整体系统结构示意图;图2为本专利技术的解析列表页系统结构示意图;图3为本专利技术的打开和解析内容页结构示意图;图中:1启始页、2解析列表页、3打开和解析内容页、4打开下页、5搜索输入框、6URL输入框、7下载器、8模块分析、9任务列表、10结果输出、11列表页、12HTML列表分析、13文档链接垂直列表、14数据识别摆放、15点击选取。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1:本专利技术提供了如图1-3所示的一种垂直业务信息的智能爬虫框架系统,包括启始页1、解析列表页2、打开和解析内容页3和打开下页4,所述解析列表页2包括:搜索输入框5、URL输入框6、下载器7、模块分析8任务列表9、结果输出10和列表页11,所述打开和解析内容页3包括:HTML列表分析12、文档链接垂直列表13和数据识别摆放14和点击选取15,具体:启始页1:通过启始页获取采集任务要聚焦的网站;解析列表页2:搜索输入框5用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容,URL输入框6用于模式或称协议、服务器名称或IP地址、路径和文件名的搜索方式,用于网站和HTTP的网络;下载器7用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面;模块分析8和任务列表9相结合,模块分析8用于分析页面中分类列表信息和详细内容链接列表信息判断链接是否已经被下载,是则记录避免重复的页面被下载,否则加入到任务列表9中继续往下执行,由上得到结果输出10得到列表页11本文档来自技高网...

【技术保护点】
1.一种垂直业务信息的智能爬虫框架系统,包括启始页(1)、解析列表页(2)、打开和解析内容页(3)和打开下页(4),所述解析列表页(2)包括:搜索输入框(5)、URL输入框(6)、下载器(7)、模块分析(8)、任务列表(9)、结果输出(10)和列表页(11);所述打开和解析内容页(3)包括:HTML列表分析(12)、文档链接垂直列表(13)和数据识别摆放(14)和点击选取(15),具体:启始页(1):通过启始页获取采集任务要聚焦的网站;解析列表页(2):搜索输入框(5)用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容;URL输入框(6)用于模式(或称协议)、服务器名称(或IP地址)、路径和文件名的搜索方式,用于网站和HTTP的网络;下载器(7)用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面;模块分析(8)和任务列表(9)相结合,模块分析(8)用于分析页面中分类列表信息和详细内容链接列表信息判断链接是否已经被下载,是则记录避免重复的页面被下载,否则加入到任务列表(9)中继续往下执行;由上得到结果输出(10)得到列表页(11);打开和解析内容页(3):由解析列表页(2)中得到列表页(11),经HTML列表分析(12)得到文档链接垂直列表(13)打开详细内容链接进行数据识别摆放(14),直到该页详细内容链接全部被打开处理;打开下页(4):由上述采集完成后,判断是否有下一页,进行点击选取(15)进入下一个采集页面,循环前面的解析列表页(2)、打开和解析内容页(3)和打开下页(4)步骤直到没有下一页为止。...

【技术特征摘要】
1.一种垂直业务信息的智能爬虫框架系统,包括启始页(1)、解析列表页(2)、打开和解析内容页(3)和打开下页(4),所述解析列表页(2)包括:搜索输入框(5)、URL输入框(6)、下载器(7)、模块分析(8)、任务列表(9)、结果输出(10)和列表页(11);所述打开和解析内容页(3)包括:HTML列表分析(12)、文档链接垂直列表(13)和数据识别摆放(14)和点击选取(15),具体:启始页(1):通过启始页获取采集任务要聚焦的网站;解析列表页(2):搜索输入框(5)用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容;URL输入框(6)用于模式(或称协议)、服务器名称(或IP地址)、路径和文件名的搜索方式,用于网站和HTTP的网络;下载器(7)用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面;模块分析(8)和任务列表(9)相结合,模块分析(8)用于分析页面中分类列表信息和详细内容链接列表信息判断链接是否已经被下载,是则记录避免重复的页面被下载,否则加入到任务列表(9)中继续往下执行;由上得到结果输出(10)得到列表页(11);打开和解析内容页(3):由解析列表页(2)中得到列表页(11),经HTML列表分析(12)得到文档链接垂直列表(13)打开详细内容链接进行数据识别摆放(14),直到该页详细内容链接全部被打开处理;打开下页(4):由上述采集完成后,判断是否有下一页,进行点击选取(15)进入下一个采集页面,循环前面的解析列表页(2)、打开和解析内容页(3)和打开下页...

【专利技术属性】
技术研发人员:邓炽成
申请(专利权)人:珠海市智图数研信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1