兼容双向自动化网页内容采集方法技术

技术编号:15840653 阅读:44 留言:0更新日期:2017-07-18 16:50
本发明专利技术公开了兼容双向自动化网页内容采集方法,它包括以下步骤,步骤1,配置网页信息采集任务;步骤2,解析网页数据;步骤3,采集信息的入库处理;本发明专利技术通过配置,自动的识别网页上的有效数据块,自动发现数据块的内容是通过全部网页刷新方式获取还是通过Ajax做局部数据刷新,如果是通过网页全部刷新,就按照一般的传统模式进行网页内容的采集,如果是通过Ajax局部数据刷新,就通过客户端自动执行该Ajax脚本,刷新数据后再提取有效的数据,从而达到数据全部采集的目的。

Compatible bidirectional automatic web content collection method

The invention discloses a method of automatic collection of two-way compatible web content, which comprises the following steps: Step 1, configure the web information acquisition task; step 2, parsing web data; step 3, the acquisition and processing of information storage; the configuration, effective data automatic identification on the web, automatic data block is found through all the way to get through the Ajax page to refresh or local data refresh, if it is all through the web page refresh, web content is in accordance with the traditional mode of general collection, if it is through the Ajax local data refresh, through the client automatically execute the Ajax script, refresh the data and then extract the valid data, so as to achieve the data acquisition the purpose of.

【技术实现步骤摘要】
兼容双向自动化网页内容采集方法
本专利技术涉及计算机网页内容采集
,具体涉及一种兼容双向自动化网页内容采集方法。
技术介绍
随着互联网技术的发展,网络数据以爆炸式的速度增长,如何从海量的数据中获取对自己有意义数据已经成为每个企业和公司关注的重点,这个就“信息中的信息”,目前网页内容采集主要有两种方式,第一种方式:基于网络爬虫的网页信息采集,这种方式的主要优势就是能通过链接不断的获取新的链接上的网页内容,通过网页抓取、网页数据抽取、内容分析等步骤,发现和找到有意义的数据,但是对不同领域、不同背景的用户往往具有不同的检索目的和需求,这种方式搜索采集到的结果包含大量用户不关心的网页,造成了大量的资源浪费;第二种方式,现在越来越多的企业和用户更多的关注自己垂直领域内的信息收集,因为这种信息的意义相比网络爬虫获取的信息更有价值,为了直接获取更有用的数据和减少数据处理步骤,他们开始只针对网页上的数据表格进行解析,从而直接把有效的数据收集到自己的数据库中,但是目前越来越多的网站为了提高整体网站的性能和用户的体验效果,采用的数据获取方式都从原来的整体网页刷新到局部数据表格的刷新,而通过传统工具本文档来自技高网...
兼容双向自动化网页内容采集方法

【技术保护点】
一种兼容双向自动化网页内容采集方法,其特征在于,它包括以下步骤:步骤1,配置网页信息采集任务,在配置网页信息采集任务时定义四个关键要素,定义任务采集的入口地址和信息采集的分页策略,定义采集信息在HTML DOM树的位置,定义采集内容的数据映射表;步骤2,解析网页数据,通过Jsoup打开任务采集的入口地址,开始解析该网页内容,通过配置的数据块位置,让Jsoup获取该位置下的所有内容,并参照数据映射表中的映射关系一一解析网页内容中的数据字段,当该入口地址的信息解析完成后,开始查找该网页采集任务的分页策略,如果分页策略为page,采集链接中的{Page}参数替换为真实的页数,再通过JSoup获取下一...

【技术特征摘要】
1.一种兼容双向自动化网页内容采集方法,其特征在于,它包括以下步骤:步骤1,配置网页信息采集任务,在配置网页信息采集任务时定义四个关键要素,定义任务采集的入口地址和信息采集的分页策略,定义采集信息在HTMLDOM树的位置,定义采集内容的数据映射表;步骤2,解析网页数据,通过Jsoup打开任务采集的入口地址,开始解析该网页内容,通过配置的数据块位置,让Jsoup获取该位置下的所有内容,并参照数据映射表中的映射关系一一解析网页内容中的数据字段,当该入口地址的信息解析完成后,开始查找该网页采集任务的分页策略,如果分页策略为page,采集链接中的{Page}参数替换为真实的页数,再通过JSoup获取下一页的网页内...

【专利技术属性】
技术研发人员:王昆姚亮彭杰
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1