【技术实现步骤摘要】
一种通过接码平台和selenium突破点选验证码的方法及系统
[0001]本专利技术涉及数据保护
,具体的说是一种通过接码平台和selenium突破点选验证码的方法及系统。
技术介绍
[0002]在互联网科技深度发展下,大数据技术成为一门具备独特魅力的新的科学。
[0003]伴随着大数据技术的蓬勃发展,数据呈现爆发式的增长。大数据其数据的丰富性和多样性以及数据的延续性使其成为一种重要的生产资料和生产力。通过对庞大规模的数据进行处理和分析,能够有效的提升决策水平,并且能够更加有效的整合资源。
[0004]大数据技术的前提是数据规模大,数据种类丰富,这就给数据的收集和存储带来更大的挑战。爬虫技术是一种重要的数据来源,但也面临着众多的困难。这其中比较常见的就是纷繁复杂的验证码。通过使用验证码来防止爬虫是一种常见的反爬虫方式。
[0005]基于此,设计研发一种通过接码平台和selenium突破点选验证码的方法及系统,以提高爬虫采集数据的能力和效力,拓宽数据来源。
技术实现思路
[0006 ...
【技术保护点】
【技术特征摘要】
1.一种通过接码平台和selenium突破点选验证码的方法,其特征在于,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。2.根据权利要求1所述的一种通过接码平台和selenium突破点选验证码的方法,其特征在于,所述方法的具体实现过程包括:步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。3.根据权利要求2所述的一种通过接码平台和selenium突破点选验证码的方法,其特征在于,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。4.根据权利要求2所述的一种通过接码平台和selenium突破点选验证码的方法,其特征在于,所述方法的具体实现过程中,可以点选任意个位置的验证码图片。5.一种通过接码平台和selenium突破点选...
【专利技术属性】
技术研发人员:姚东济,谢传家,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。