The invention discloses an intelligent crawler framework system for vertical business information, which is a visual HTTP client crawler framework system, including start page, parse list page, open and parse content page and open the next page. The parse list page includes: search input box, URL input box, downloader, module analysis, task list, result output and list page. Open and parse content pages include HTML list analysis, vertical list of document links, data identification placement and click selection. The invention starts a high-performance HTTP client after inputting the return key command of the website to be crawled into the search input box and the URL input box, identifies the structure of the web page quickly and intelligently, starts the information crawling of the target website quickly, reduces the time cost of manual intervention, and enables the enterprise to focus more on the analysis of vertical business through the intelligent crawler, thus saving the cost of data acquisition.
【技术实现步骤摘要】
一种垂直业务信息的智能爬虫框架系统
本专利技术涉及搜索引擎
,特别涉及一种垂直业务信息的智能爬虫框架系统。
技术介绍
垂直搜索业务的搜索引擎,前期大部分的信息都来源于业务相关的网站和新型的微信小程序等,针对这些信息的爬取是开展垂直业务分析的基础。从大量业务网站的形态分析来看,绝大部分的信息展示形式都是包含信息标题的列表以及信息的内容,完成这两个方面信息的基本满足对业务信息的需求。垂直业务信息的智能爬虫框架技术的定位针对于垂直搜索行业,需要对目标网站的信息爬取,会产生较大的时间成本,浪费数据采集成本的时间。因此,专利技术一种垂直业务信息的智能爬虫框架系统来解决上述问题很有必要。
技术实现思路
本专利技术的目的在于提供一种垂直业务信息的智能爬虫框架系统,HTML列表分析是一个顶点的连接点,主要将需要搜索的众多连接点整顿成列表,进而能够组成一个聚焦的网页,文档链接垂直列表和数据识别摆放将所需要链接端进行梳理和分列摆放,进而方便点击选取需要搜索的文本命令,当点击过后,进而通过爬虫采集端对网页进行爬取,主要通过全流程的框架技术,加上自动识别通用的列表规则,能快速采集目标网站,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种垂直业务信息的智能爬虫框架系统,包括启始页、解析列表页、打开和解析内容页和打开下页,所述解析列表页包括:搜索输入框、URL输入框、下载器、模块分析任务列表、结果输出和列表页,所述打开和解析内容页包括:HTML列表分析、文档链接垂直列表和数据识别摆放和点击选取,具体:启始页:通过启始页获取采集任务要聚焦的网站;解析列 ...
【技术保护点】
1.一种垂直业务信息的智能爬虫框架系统,包括启始页(1)、解析列表页(2)、打开和解析内容页(3)和打开下页(4),所述解析列表页(2)包括:搜索输入框(5)、URL输入框(6)、下载器(7)、模块分析(8)、任务列表(9)、结果输出(10)和列表页(11);所述打开和解析内容页(3)包括:HTML列表分析(12)、文档链接垂直列表(13)和数据识别摆放(14)和点击选取(15),具体:启始页(1):通过启始页获取采集任务要聚焦的网站;解析列表页(2):搜索输入框(5)用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容;URL输入框(6)用于模式(或称协议)、服务器名称(或IP地址)、路径和文件名的搜索方式,用于网站和HTTP的网络;下载器(7)用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面;模块分析(8)和任务列表(9)相结合,模块分析(8)用于分析页面中分类列表信息和详细内容链接列表信息判断链接是否已经被下载,是则记录避免重复的页面被下载,否则加入到任务列表(9)中继续往下执行;由上得到结果输出(10)得到列表页(11);打开和解析内 ...
【技术特征摘要】
1.一种垂直业务信息的智能爬虫框架系统,包括启始页(1)、解析列表页(2)、打开和解析内容页(3)和打开下页(4),所述解析列表页(2)包括:搜索输入框(5)、URL输入框(6)、下载器(7)、模块分析(8)、任务列表(9)、结果输出(10)和列表页(11);所述打开和解析内容页(3)包括:HTML列表分析(12)、文档链接垂直列表(13)和数据识别摆放(14)和点击选取(15),具体:启始页(1):通过启始页获取采集任务要聚焦的网站;解析列表页(2):搜索输入框(5)用于用户输入和编辑文本或数值的文本输入控件,能够输入单个或多个文本内容;URL输入框(6)用于模式(或称协议)、服务器名称(或IP地址)、路径和文件名的搜索方式,用于网站和HTTP的网络;下载器(7)用于页面下载的客户端,一个高性能的HTTP客户端,其能并行地下载上百个页面;模块分析(8)和任务列表(9)相结合,模块分析(8)用于分析页面中分类列表信息和详细内容链接列表信息判断链接是否已经被下载,是则记录避免重复的页面被下载,否则加入到任务列表(9)中继续往下执行;由上得到结果输出(10)得到列表页(11);打开和解析内容页(3):由解析列表页(2)中得到列表页(11),经HTML列表分析(12)得到文档链接垂直列表(13)打开详细内容链接进行数据识别摆放(14),直到该页详细内容链接全部被打开处理;打开下页(4):由上述采集完成后,判断是否有下一页,进行点击选取(15)进入下一个采集页面,循环前面的解析列表页(2)、打开和解析内容页(3)和打开下页...
【专利技术属性】
技术研发人员:邓炽成,
申请(专利权)人:珠海市智图数研信息技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。