System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于智能采集系统,具体涉及一种基于动态ip代理池的ip获取系统。
技术介绍
1、数据已成为与土地、资本、劳动力同等重要的生产要素;发展好大数据产业,是发挥我国海量数据规模和丰富应用场景优势,激活数据要素潜能的时代要求,是加快经济发展变革,构建现代化产业体系的必然选择;政策资讯以全国23个省,近千家建设主管部门(从全国性的建设主管部门,到各省级建设主管部门,再到各地级县级建设主管部门、协会)网站为主要信息源,采集其公布的通知、公示、通报、办事指南、政策法规等内容,同步进行发布;大数据政策资讯的三大主要功能和特色是:1、每日快讯邮件订阅搞定全国建筑政策动态;2、部委政策资讯国家级建筑政策信息掌控重要动态;3、地区政策资讯本土化信息了解当地建筑政策动态;网站对政策资讯的采集,便于人们对各类有效政策资讯的查看;大数据专业将从大数据应用的三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)系统地帮助企业掌握大数据应用中的各种典型问题的解决办法,包括实现和分析协同过滤算法、运行和学习分类算法、分布式hadoop集群的搭建和基准测试、分布式hbase集群的搭建和基准测试、实现一个基于、mapreduce的并行算法、部署hive并实现一个的数据操作等等,实际提升企业解决实际问题的能力;
2、在现有技术中,随着网络应用的增加,ip地址的限制和切换成为常见的问题。现有的静态ip代理服务无法满足快速变化的网络环境需求,对于政策资讯数据网络,存在优质ip和一般ip的区别,当优质ip和一般ip同时采集时,现有采集系统无法对不同i
技术实现思路
1、本专利技术的目的在于提供一种基于动态ip代理池的ip获取系统,旨在解决现有技术中对于政策资讯数据网络,存在优质ip和一般ip的区别,当优质ip和一般ip同时采集时,现有采集系统无法对不同ip进行筛选,容易导致优质ip筛选效率低的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、一种基于动态ip代理池的ip获取系统,包括:
4、采集源;
5、ip代理采集,所述ip代理采集采集采集源的ip地址;
6、数据库,所述数据库存储无效ip地址,取数据库内的无效ip地址,验证该ip地址的有效性,若为有效的ip地址则ip优先级+1,若为无效的ip地址,则ip优先级-1。
7、作为本专利技术一种优选的方案,所述采集源经过scrapy处理后输入至数据库中。
8、作为本专利技术一种优选的方案,所述ip代理采集采集的采集源ip地址若有效,则不入库。
9、作为本专利技术一种优选的方案,所述数据库内通过执行一个sql查询来完成随机获取ip接口。
10、作为本专利技术一种优选的方案,所述随机获取ip接口调用接口获取ip。
11、作为本专利技术一种优选的方案,所述ip优先级-1的ip地址,其ip优先级为0时,删除该ip数据。
12、作为本专利技术一种优选的方案,随机获取ip接口对于优先级高的ip优先获取。
13、作为本专利技术一种优选的方案,ip地址分为免费ip和付费ip,随机获取ip。
14、作为本专利技术一种优选的方案,所述ip获取位置为网站地址。
15、作为本专利技术一种优选的方案,删除的ip数据存有记录,在采集数据时不作为采集目标。
16、与现有技术相比,本专利技术的有益效果是:
17、1、本专利技术中,通过使用本方案,对于政策资讯数据网络,区别优质ip和一般ip,并且避开删除的ip数据,及时有效采集优质ip,提高优质ip的筛选效率。
18、2、本专利技术中,随机获取的ip接口,优先获取优先级高的ip,删除的ip地址数据记录在系统内,在下次采集时避开删除的ip地址。
本文档来自技高网...【技术保护点】
1.一种基于动态IP代理池的IP获取系统,其特征在于,包括:
2.根据权利要求1所述的一种基于动态IP代理池的IP获取系统,其特征在于:所述采集源经过scrapy处理后输入至数据库中。
3.根据权利要求2所述的一种基于动态IP代理池的IP获取系统,其特征在于:所述ip代理采集采集的采集源ip地址若有效,则不入库。
4.根据权利要求3所述的一种基于动态IP代理池的IP获取系统,其特征在于:所述数据库内通过执行一个SQL查询来完成随机获取ip接口。
5.根据权利要求4所述的一种基于动态IP代理池的IP获取系统,其特征在于:所述随机获取ip接口调用接口获取ip。
6.根据权利要求5所述的一种基于动态IP代理池的IP获取系统,其特征在于:所述ip优先级-1的ip地址,其ip优先级为0时,删除该ip数据。
7.根据权利要求6所述的一种基于动态IP代理池的IP获取系统,其特征在于:随机获取ip接口对于优先级高的ip优先获取。
8.根据权利要求7所述的一种基于动态IP代理池的IP获取系统,其特征在于:ip地址分
9.根据权利要求8所述的一种基于动态IP代理池的IP获取系统,其特征在于:所述ip获取位置为网站地址。
10.根据权利要求9所述的一种基于动态IP代理池的IP获取系统,其特征在于:删除的ip数据存有记录,在采集数据时不作为采集目标。
...【技术特征摘要】
1.一种基于动态ip代理池的ip获取系统,其特征在于,包括:
2.根据权利要求1所述的一种基于动态ip代理池的ip获取系统,其特征在于:所述采集源经过scrapy处理后输入至数据库中。
3.根据权利要求2所述的一种基于动态ip代理池的ip获取系统,其特征在于:所述ip代理采集采集的采集源ip地址若有效,则不入库。
4.根据权利要求3所述的一种基于动态ip代理池的ip获取系统,其特征在于:所述数据库内通过执行一个sql查询来完成随机获取ip接口。
5.根据权利要求4所述的一种基于动态ip代理池的ip获取系统,其特征在于:所述随机获取ip接口调用接口获取ip。
6.根据权利要求5所...
【专利技术属性】
技术研发人员:杨帆,毛灶芳,
申请(专利权)人:重庆龙智造互联网科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。