网站信息的获取方法及装置制造方法及图纸

技术编号:20566721 阅读:21 留言:0更新日期:2019-03-14 09:30
本申请提供了一种网站信息的获取方法及装置,其中,该方法包括:依据预设规则识别网站的登陆界面,在相应位置输入账号和密码等,然后登陆至该网站,在该网站中获取预设模板中指示的第一信息相关的第一网站信息,提取该第一网站信息并导出,采用上述方案,解决了相关技术中爬虫不能适用于多数网页导致维护成本较高的问题,上述预设规则可以适用于多数网站的登陆,预设模板中规定待获取的信息的特征,增加了爬虫的适用范围,降低了对不同网页的敏感度,针对不同网页不再修改大幅修改程序代码,降低了维护成本。

【技术实现步骤摘要】
网站信息的获取方法及装置
本申请涉及但不限于互联网领域,具体而言,涉及一种网站信息的获取方法及装置。
技术介绍
在相关技术中,爬虫需要关心用户登录逻辑,需要关心图片验证码,需要关心爬取的URL,每爬取一个网站需要开发一套程序代码,对目标网站的实现依赖严重,健壮性不强,爬取结果需要严格的解析要求,深入理解目标网站实现细节,维护成本比较高,且开发效率比较慢,不能满足业务上更高更快的爬取,对目标页面敏感,不能自动适配大部分页面级的改版,维护成本比较高。针对相关技术中爬虫不能适用于多数网页导致维护成本较高的问题,目前还没有有效的解决方案。
技术实现思路
本申请实施例提供了一种网站信息的获取方法及装置,以至少解决相关技术中爬虫不能适用于多数网页导致维护成本较高的问题。根据本申请的一个实施例,提供了一种网站信息的获取方法,包括:依据预设规则识别网站的登陆界面,并登陆至所述网站;在所述网站的网站信息中,获取与预设模板中指示的第一信息对应的第一网站信息。根据本申请的另一个实施例,还提供了一种网站信息的获取装置,包括:识别模块,用于依据预设规则识别网站的登陆界面,并登陆至所述网站;获取模块,用于在所述网站的网站信息中,获取与预设模板中指示的第一信息对应的第一网站信息。根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本申请,依据预设规则识别网站的登陆界面,在相应位置输入账号和密码等,然后登陆至该网站,在该网站中获取预设模板中指示的第一信息相关的第一网站信息,提取该第一网站信息并导出,采用上述方案,解决了相关技术中爬虫不能适用于多数网页导致维护成本较高的问题,上述预设规则可以适用于多数网站的登陆,预设模板中规定待获取的信息的特征,增加了爬虫的适用范围,降低了对不同网页的敏感度,针对不同网页不再修改大幅修改程序代码,降低了维护成本。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是本申请实施例的一种网站信息的获取方法的移动终端的硬件结构框图;图2是根据本申请实施例的网站信息的获取方法的流程图;图3是根据相关技术中的传统爬虫的界面示意图;图4是根据相关技术中的传统爬虫采集网站信息的详情示意图;图5是根据本申请另一个实施例的智能爬虫的架构示意图;图6是根据本申请另一个实施例的智能爬虫获取网页信息的方法流程图;图7是根据本申请另一个实施例的智能爬虫识别登陆界面的示意图;图8是根据本申请另一个实施例的智能爬虫识别网页代码的示意图;图9是根据本申请另一个实施例的JSON结构示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本申请文件中的技术方案可以应用于计算机终端,是种爬虫方案,可以通过一段程序或脚本语言来实现本申请的技术方案。爬虫是一种按照一定规则自动地抓取万维网信息的程序或脚本。实施例一本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种网站信息的获取方法的移动终端的硬件结构框图,如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的网站信息的获取方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。在本实施例中提供了一种运行于上述计算机终端的网站信息的获取方法,图2是根据本申请实施例的网站信息的获取方法的流程图,如图2所示,该流程包括如下步骤:步骤S202,依据预设规则识别网站的登陆界面,并登陆至所述网站;上述方案可以由程序或者脚本实现,也称为爬虫。识别网站的登陆界面可以包括识别出账号框的位置,密码框的位置等,即程序自动分辨出登陆界面中各个输入框的作用。步骤S204,在所述网站的网站信息中,获取与预设模板中指示的第一信息对应的第一网站信息。在通过网站的安全验证之后,登陆至网站,按照预设模板中规定的操作方式或者信息,可以逐步骤点击链接,获取指定链接中的页面信息。通过上述步骤,依据预设规则识别网站的登陆界面,在相应位置输入账号和密码等,然后登陆至该网站,在该网站中获取预设模板中指示的第一信息相关的第一网站信息,提取该第一网站信息并导出,采用上述方案,解决了相关技术中爬虫不能适用于多数网页导致维护成本较高的问题,上述预设规则可以适用于多数网站的登陆,预设模板中规定待获取的信息的特征,增加了爬虫的适用范围,降低了对不同网页的敏感度,针对不同网页不再修改大幅修改程序代码,降低了维护成本。可选地,依据预设规则识别网站的登陆界面,包括通过以下方式至少之一识别所述登陆界面中的密码框:获取所述登陆界面的页面代码,在所述代码中查询type=password的元素,识别所述元素为所述密码框;查询将输入信息转换为掩码形式的第一输入框,识别所述第一输入框为所述密码框。采用上述方案,可以准确识别密码框的位置。可选地,识别所述登陆界面中的密码框之后,在所述密码框周围预设范围内识别第二输入框,识别所述第二输入框中满足以下条件至少之一的第三输入框为所述账号框:识别输入框的input的type非hidden的第二输入框为所述第三输入框;识别输入框的value或本文档来自技高网...

【技术保护点】
1.一种网站信息的获取方法,其特征在于,包括:依据预设规则识别网站的登陆界面,并登陆至所述网站;在所述网站的网站信息中,获取与预设模板中指示的第一信息对应的第一网站信息。

【技术特征摘要】
1.一种网站信息的获取方法,其特征在于,包括:依据预设规则识别网站的登陆界面,并登陆至所述网站;在所述网站的网站信息中,获取与预设模板中指示的第一信息对应的第一网站信息。2.根据权利要求1所述的方法,其特征在于,依据预设规则识别网站的登陆界面,包括通过以下方式至少之一识别所述登陆界面中的密码框:获取所述登陆界面的页面代码,在所述代码中查询type=password的元素,识别所述元素为所述密码框;查询将输入信息转换为掩码形式的第一输入框,识别所述第一输入框为所述密码框。3.根据权利要求2所述的方法,其特征在于,识别所述登陆界面中的密码框之后,在所述密码框周围预设范围内识别第二输入框,识别所述第二输入框中满足以下条件至少之一的第三输入框为账号框:识别输入框的input的type非hidden的第二输入框为所述第三输入框;识别输入框的value或title或placeholder符合预设字段的第二输入框为所述第三输入框。4.根据权利要求3所述的方法,其特征在于,登陆至所述网站,包括:在所述密码框和所述账号框上输入账号信息;并使用第一模型对图片验证码进行识别,并完成验证,其中所述第一模型为使用多组数据通过机器学习训练出来的,所述多组数据中的每组数据均包括;图片验证码和图片验证码中的字符。5.根据权利要求1所述的方法,其特征在于,获取与预设模板中指示的第一信息对应的第一网站信息,包括以下至少之一:获取所述第一信息中指示的超链接中的网站信息;获取所述第一信息中指示的关键字段处的网站信息;获取所述第...

【专利技术属性】
技术研发人员:赵丙峰陶志明金红豆常春倩张爽
申请(专利权)人:北京网众共创科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1