一种基于众包的验证信息的识别方法及系统技术方案

技术编号:16365710 阅读:54 留言:0更新日期:2017-10-10 21:48
本发明专利技术是一种基于众包的验证信息的识别方法及系统,该方法包括步骤S1任务处理装置接收需求提交者上传的验证码识别的任务需求和接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;步骤S2用户装置接收验证码的网址,输出验证码访问请求;步骤S3任务处理装置接收验证码访问请求,输出验证码图片;步骤S4用户装置接收验证码图片,输出验证码识别结果;步骤S5监测装置定时监测任务处理装置接收的验证码识别结果,步骤S6验证码识别结果正确,任务处理装置接收验证码识别结果,输出给需求提交者;步骤S7验证码识别结果错误,任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。

Method and system for identifying authentication information based on crowdsourcing

The present invention relates to a method and system for recognizing Crowdsourcing verification based on the information, the method comprises the steps of S1 task processing device receives the demand submitter upload the verification code identification task needs and receive and output tasks according to the pricing device task executor to determine task executor set rules, send verification code URL; step the S2 user device receives the authentication code of the web site, the output code access request; step S3 task processing device receives verification code access request, the output code verification; step S4 user device receives the code image, the output code identification result; step S5 monitoring device timing monitoring task processing device receives the verification code identification results, step S6 the verification code recognition result is correct, the task processing device receives the verification code identification results, output to demand the submitter; step S7 code identification. In case of error, the task pricing device receives the modified pricing instructions, modifies the pricing, and outputs the task executor setting rule.

【技术实现步骤摘要】
一种基于众包的验证信息的识别方法及系统
本专利技术属于信息的识别
,具体涉及一种基于众包的验证信息的识别系统及方法。
技术介绍
网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软必应,百度等等,几乎每个大型门户网站都有自己的搜索引擎,现在的爬虫工具特别多,已知的开源爬虫框架就有几十种不等。一般来说,企业级别的网络爬虫一般是部署在集群上面,通过不同的网络线路出口,并行地从互联网上下载所需的信息。各个网站为了保护自己的网站不被恶意攻击,都会有自己的请求和响应策略。一般来说,目标网站则根据访问频率,浏览网页速度,cookies等因素来封锁线路,同时也会根据账户登录状态,输入验证码是否正确,Flash封装,Ajax混淆,JS加密,图片验证,CSS混淆等技术来保护自己的网站。然而这样一些因素会导致爬虫不能正常爬取。其中,最主要的因素就是网络线路的封锁,很多目标网站会对在一段时间频繁请求的爬虫采取完全封锁的策略。这样便误封锁了一部分爬虫的正常爬取。人工的监控成本也很大,不知道线路何时被封锁了,何时被解封,以至于不能迅速反应。而数据的抓取是一个长期连续的过程,如不本文档来自技高网...
一种基于众包的验证信息的识别方法及系统

【技术保护点】
一种基于众包的验证信息的识别方法,其特征在于,该方法包括如下步骤:步骤S1:任务处理装置接收需求提交者上传的验证码识别的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;步骤S2:用户装置接收验证码的网址,输出验证码访问请求;步骤S3:任务处理装置接收验证码访问请求,输出验证码图片;步骤S4:用户装置接收验证码图片,输出验证码识别结果;步骤S5:监测装置定时监测任务处理装置接收的验证码识别结果,验证码识别结果正确则执行步骤S6,验证码识别结果错误则执行步骤S7;步骤S6:任务处理装置接收验证码识别结果,输出给需求提交者;步骤S7:任务定价装置...

【技术特征摘要】
1.一种基于众包的验证信息的识别方法,其特征在于,该方法包括如下步骤:步骤S1:任务处理装置接收需求提交者上传的验证码识别的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;步骤S2:用户装置接收验证码的网址,输出验证码访问请求;步骤S3:任务处理装置接收验证码访问请求,输出验证码图片;步骤S4:用户装置接收验证码图片,输出验证码识别结果;步骤S5:监测装置定时监测任务处理装置接收的验证码识别结果,验证码识别结果正确则执行步骤S6,验证码识别结果错误则执行步骤S7;步骤S6:任务处理装置接收验证码识别结果,输出给需求提交者;步骤S7:任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。2.根据权利要求1所述的方法,其特征在于,确定所述任务执行者的过程是需要根据供求平衡关系对任务执行者进行定价,根据定价结果确定任务执行者。3.根据权利要求2所述的方法,其特征在于,所述任务执行者设定规则是检测当前队列中的爬虫任务量,以及当前在线的用户量、平均响应时间,根据爬虫任务量、在线用户量、平均响应时间的动态平衡关系,确定任务执行者的价格。4.根据权利要求1所述的方法,其特征在于,所述的任务执行者设定规则是结合当前预测价格与预测的响应情况确定任务执行者价格。5.根据权利要求1所述的方法,其特征在于,所述定时监测的时间间隔为秒级。6.一种基于众包的验证信息...

【专利技术属性】
技术研发人员:于文渊贾西贝
申请(专利权)人:深圳市华傲数据技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1