一种高效的互联网动态数据自动筛选与抓取方法及系统技术方案

技术编号:15895439 阅读:49 留言:0更新日期:2017-07-28 19:52
一种高效的互联网动态数据自动筛选与抓取方法及系统,首先启动浏览器,模拟页面的输入、点击、跳转操作,进行自动筛选、抓取互联网动态数据,并进行分类保存;1)定位某数据,加载切换数据所依赖的主元素列表,开始遍历各主元素;2):查找定位该主元素下所有子元素列表,开始遍历各子元素,并获取选择的子元素所属的主元素的名称;3):循环2),直至所有主元素再无任何子元素;4):根据以上动态模拟筛选数据的各主、子元素,开始自动抓取动态加载的互联网数据;通过设计的方法自动筛选与抓取互联网动态数据,并进行分类保存。该方法和系统能够高效准确的抓取动态加载的互联网数据,大大提高了互联网动态数据抓取的效率以及正确率。

Efficient method and system for automatically screening and grasping dynamic data of Internet

An efficient dynamic internet data automatic screening and grasping method and system, start the browser page, click on the input, simulation, jump operation, automatic screening, grab the Internet dynamic data, classification and preservation; 1) positioning a data loading list of main elements for cutting data dependent, traversing the main 2 elements;): find the location of the main elements of all the sub elements list traversing each sub element, name of main elements and obtain the sub elements of the genus; 3): Circular 2), until all the main elements of no sub elements; 4): Based on the dynamic simulation of the main and subsidiary screening of data elements, start internet data acquirement of dynamic loading; automatic screening data and crawl the Internet through the design of dynamic method, classification and preservation. The method and system can capture the dynamic loaded Internet data efficiently and accurately, and greatly improve the efficiency and accuracy of the dynamic data capture on the internet.

【技术实现步骤摘要】
一种高效的互联网动态数据自动筛选与抓取方法及系统
本专利技术涉及网络数据抓取
,特别是一种网络动态数据抓取方法及系统。
技术介绍
随着信息化时代的到来,互联网蕴藏着丰富的公开数据资源,各类学术、教育、商品等信息已遍布于各网络平台。出于安全性、及时性、快速性因素考虑,大部分的互联网数据都是通过Web动态加载技术呈现给用户,同时对于一些重要的资源,都需用户登录后才能访问,这使得互联网数据的抓取变得较为困难。传统的互联网数据抓取基本都是基于指定网址的静态html内容,通过爬虫工具将数据内容下载后进行数据的解析与提取。通过网址解析网页的方式只能获取给定的数据,不能实现与用户之间的交互达到筛选的目的,同时对于js以及ajax技术动态加载的html内容,传统的数据抓取系统已毫无办法。因此对于此类数据的抓取,考虑通过操作浏览器,模拟人为的登录、点击等操作达到互联网数据动态加载渲染,保证数据的完整性。本专利技术针对动态加载的互联网数据筛选与抓取进行了方法设计以及系统实现。首先启动浏览器,模拟页面的输入、点击、跳转等操作,再通过设计的方法进行自动筛选、抓取互联网动态数据,并进行分类保存。经实践,本文档来自技高网...
一种高效的互联网动态数据自动筛选与抓取方法及系统

【技术保护点】
一种互联网动态数据自动筛选与抓取方法,其特征是首先启动浏览器,模拟页面的输入、点击、跳转操作,进行自动筛选、抓取互联网动态数据,并进行分类保存;包括如下步骤:步骤一:定位某数据,加载切换数据所依赖的主元素列表,开始遍历各主元素;步骤二:查找定位该主元素下所有子元素列表,开始遍历各子元素,并获取选择的子元素所属的主元素的名称;步骤三:循环步骤二,直至所有主元素再无任何子元素;步骤四:根据以上动态模拟筛选数据的各主、子元素,开始自动抓取动态加载的互联网数据;步骤五:循环步骤一至步骤四,直至所有主元素、子元素被一一遍历筛选结束;互联网动态数据自动抓取的方法,包括如下步骤:步骤一:查找当前数据区域加载...

【技术特征摘要】
1.一种互联网动态数据自动筛选与抓取方法,其特征是首先启动浏览器,模拟页面的输入、点击、跳转操作,进行自动筛选、抓取互联网动态数据,并进行分类保存;包括如下步骤:步骤一:定位某数据,加载切换数据所依赖的主元素列表,开始遍历各主元素;步骤二:查找定位该主元素下所有子元素列表,开始遍历各子元素,并获取选择的子元素所属的主元素的名称;步骤三:循环步骤二,直至所有主元素再无任何子元素;步骤四:根据以上动态模拟筛选数据的各主、子元素,开始自动抓取动态加载的互联网数据;步骤五:循环步骤一至步骤四,直至所有主元素、子元素被一一遍历筛选结束;互联网动态数据自动抓取的方法,包括如下步骤:步骤一:查找当前数据区域加载的所有数据元素列表,开始遍历定位各数据元素;步骤二:获取该数据元素的编号信息,结合记录所属的主元素、子元素创建用于存储该数据元素内容的本地文件夹;步骤三:查找当前数据元素中的图片元素,保存图片数...

【专利技术属性】
技术研发人员:史飞悦房鹏展
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1