【技术实现步骤摘要】
一种获取网页数据的方法及系统
本专利技术涉及计算机
,具体而言,涉及一种获取网页数据的方法及系统。
技术介绍
现有技术中,以数据采集来说,通过固定的IP访问目标网站进行大规模的数据采集时,很容易造成IP封锁,且极其容易造成页面卡顿无法刷新到下一页的问题。此时如果采用动态IP地址访问,目标网站无法分析IP访问特征,并且难以封锁当前的数据采集行为。且由于一些免费的代理IP使用时,难以保证使用的稳定性以及可控制方案。并且这种代理没有针对目标网站进行优化,导致访问速度慢或者匿名性较差。因此不能稳定的保障大规模数据采集问题,无法完成动态IP代理的使用简单方便的特性。如专利号为CN101650726B的专利公开了一种获取数据的方法,包括:获取数据流,获取数据流标识,获取所述数据流头文件的版本号,获取十二个字节长度的数据,获取通道路径长度,最终获取所述数据流中数据体的数据。又如专利号为CN102043856B的专利公开了一种数据获取方法,通过索引文件指示该目标数据所在的分数据库以及标识,因而能够提高数据获取效率。但该 ...
【技术保护点】
1.一种获取网页数据的方法,用于实现数据的获取以及存储,其特征在于,所述获取网页数据的方法包含以下步骤:/n步骤1:通过用户登录访问的网址,获取储存的网址信息以及历史浏览;/n步骤2:将用户已经获得的动态IP导入模型中,且所述动态IP至少设置两个,但其中一个动态IP运作时,其它动态IP作为备用动态IP;/n步骤3:将用户需要采集的网页网址信息添加至代理池中,利用动态IP替代电脑客户端原有的固定IP;/n步骤4:打开用户所需要访问的网页,自动获取原网页的数据信息;/n步骤5:系统内部设置函数对原生数据进行正则化处理和清洗处理,剔除无用的数据信息,自动保存用户所需的数据信息;/ ...
【技术特征摘要】
1.一种获取网页数据的方法,用于实现数据的获取以及存储,其特征在于,所述获取网页数据的方法包含以下步骤:
步骤1:通过用户登录访问的网址,获取储存的网址信息以及历史浏览;
步骤2:将用户已经获得的动态IP导入模型中,且所述动态IP至少设置两个,但其中一个动态IP运作时,其它动态IP作为备用动态IP;
步骤3:将用户需要采集的网页网址信息添加至代理池中,利用动态IP替代电脑客户端原有的固定IP;
步骤4:打开用户所需要访问的网页,自动获取原网页的数据信息;
步骤5:系统内部设置函数对原生数据进行正则化处理和清洗处理,剔除无用的数据信息,自动保存用户所需的数据信息;
步骤6:获取网页信息后,模拟点击翻页按钮执行翻页操作,并刷新页面;
步骤7:将处理后的数据存储进数据库,根据实际需要调用取出。
2.根据权利要求1所述的获取网页数据的方法,其特征在于,所述代理池用于存储若干IP代理地址及其代理信息。
3.根据权利要求1所述的获取网页数据的方法,其特征在于,所述自动获取原网页的数据信息包括从用户登录端获知目标网页的地址和目标网页的展示页面上的选择框的位置,根据选择框的信息获取网页内容信息。
4.根据权利要求1所述的获取网页数据的方法,其特征在于,所述设置函数包括设置数据过滤系统。
5.根据权利要求4所述的获取网页数据的方法,其特征在于,所述设置数据过滤系统包括:
设置数据采集模块,用于接收数据发送端的数据信息,所述数据信息;
设置特征提取模块,用于提取所述数据信...
【专利技术属性】
技术研发人员:陈向荣,王东,蔡梓鸿,
申请(专利权)人:佛山科学技术学院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。