基于疲劳仿真模型的拟人爬虫方法技术

技术编号:33639426 阅读:11 留言:0更新日期:2022-06-02 01:57
基于疲劳仿真模型的拟人爬虫方法,涉及信息获取领域。解决了现有针对反爬虫技术的爬虫方法,爬取效率低的问题。本发明专利技术方法包括:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;S2、对初始数据集进行预处理;S3、构建疲劳仿真模型;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。主要用于信息采集。从而实现拟人爬虫。主要用于信息采集。从而实现拟人爬虫。主要用于信息采集。

【技术实现步骤摘要】
基于疲劳仿真模型的拟人爬虫方法


[0001]本专利技术涉及信息获取领域。

技术介绍

[0002]随着社会的进步和互联网的快速发展,更多的数据趋向于数字化。然而如何获取这些数据成为学者们的研究热点,以往的手工方式,一条一条的搜索显然已经不能满足,效率低下,耗费时间长,网络爬虫的出现改变了这一现状。根据人们对数据的需求不同以及应用的场合不同,网络爬虫也进行了分类,如通用网络爬虫和主题网络爬虫。传统的网络爬虫从一个或若干个起始URL开始,获取初始网页的URL,在对网页进行抓取的过程中不断的,将新的URL放入URL队列中,不断重复整个过程,直到满足爬虫终止的条件。
[0003]然而随着网络爬虫技术的发展,其对网络的影响越来越大。各大网站出于对数据保护的目的,都或多或少的设计了一些反爬虫的技术,如对请求头的检测,对用户的流量监控从而进行IP的限制,异步加载,在下载时设置验证码等,用各种手段限制爬虫程序。针对这些问题,目前所采用的方法分为两种,一种是对爬虫进行伪装,即反爬措施很难识别爬虫程序,然而此类方法采用统一的休息间隔;另外一种方法是针对出现的问题采用具体的措施,如针对网站的IP限制,采取的策略是更换IP或者采用IP池的方法。这两种方式在使用时都会使爬虫的爬取效率下降,因此,以上问题亟需解决。

技术实现思路

[0004]本专利技术目的是为了解决现有针对反爬虫技术的爬虫方法,爬取效率低的问题,本专利技术提供了一种基于疲劳仿真模型的拟人爬虫方法。
[0005]基于疲劳仿真模型的拟人爬虫方法,包括如下步骤:
[0006]S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成;m和n均为整数;
[0007]S2、对初始数据集进行预处理,获得预处理后的数据集;
[0008]S3、构建疲劳仿真模型;所述疲劳仿真模型采用LSTM的神经网络模型实现;
[0009]S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,使疲劳仿真模型对训练集进行深度学习,获得训练后的疲劳仿真模型;
[0010]S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。
[0011]本专利技术带来的有益效果是,现有技术中应对反爬的策略还未将人对网站的浏览过程考虑进来,因此,本专利技术根据人下载浏览文件的过程,构建了适用于人的疲劳仿真模型,实现对网站反爬措施的规避。
[0012]本专利技术利用疲劳仿真模型拟合出人类访问网站时点击鼠标的时间间隔,在爬虫爬取目标网站数据时以拟合出的人类访问网站时鼠标点击的时间间隔为基准设置休眠时间,且通过训练后的疲劳仿真模型可随机的生成进行当前爬虫任务所需的休眠时间间隔,减少规律性,实现以拟人的方式进行爬虫。本专利技术中利用疲劳仿真模型对爬虫进行拟人化可在保证爬虫爬取目标网站的效率的同时,降低被封禁的概率,而人类访问网站时,很少出现被封禁的情况,原因在于人类访问网站采取数据时的频率较为适中,在浏览及下载的过程中,为间歇式的采集数据,浏览过程中处于非点击状态,故人类访问网站时不会被封禁。所述基于疲劳仿真模型的拟人爬虫方法为应对反爬虫提供了一种新的解决方案。
附图说明
[0013]图1是本专利技术所述基于疲劳仿真模型的拟人爬虫方法的流程图;
[0014]图2是获得初始数据集的流程图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0017]具体实施方式一:下面结合图1说明本实施方式,本实施方式所述基于疲劳仿真模型的拟人爬虫方法,包括如下步骤:
[0018]S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成;m和n均为整数;
[0019]S2、对初始数据集进行预处理,获得预处理后的数据集;
[0020]S3、构建疲劳仿真模型;所述疲劳仿真模型采用LSTM的神经网络模型实现;
[0021]S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,使疲劳仿真模型对训练集进行深度学习,获得训练后的疲劳仿真模型;
[0022]S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。
[0023]本实施方式中,本专利技术利用疲劳仿真模型拟合出人类访问网站时点击鼠标的时间间隔,在爬虫爬取目标网站数据时以拟合出的人类访问网站时鼠标点击的时间间隔为基准设置休眠时间,且通过训练后的疲劳仿真模型可随机的生成进行当前爬虫任务所需的休眠时间间隔,减少规律性,实现以拟人的方式进行爬虫。本专利技术中利用疲劳仿真模型对爬虫进行拟人化可在保证爬虫爬取目标网站的效率的同时,降低被封禁的概率,而人类访问网站时,很少出现被封禁的情况,原因在于人类访问网站采取数据时的频率较为适中,在浏览及
下载的过程中,为间歇式的采集数据,浏览过程中处于非点击状态,故人类访问网站时不会被封禁。所述基于疲劳仿真模型的拟人爬虫方法为应对反爬虫提供了一种新的解决方案。
[0024]所述的疲劳仿真模型是采用LSTM的神经网络模型实现,LSTM的神经网络模型是现有技术,在对其训练的过程可通过现有技术实现,具体为可将初始数据集中的多组时间上连续的时间间隔序列作为疲劳仿真模型的输入,疲劳仿真模型不断的对输入的多组时间间隔序列进行深度学习,从而预测出执行下一目标任务的时间间隔序列,利用预测出的时间间隔序列与初始数据集中的真实的时间间隔序列比较,直至疲劳仿真模型收敛,完成训练。
[0025]所述的爬虫程序为现有技术。
[0026]具体实施方式二:下面结合图2说明本实施方式,本实施方式对实施方式一作进一步说明,步骤S1中、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集的实现方式为:
[0027]步骤S11、进入任意目标网站;
[0028]步骤S12、利用m个个体均对同一目标网站下的第i个目标文章进行点击,并记录每个个体的点击时间t
pi1
,i的初始值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于疲劳仿真模型的拟人爬虫方法,其特征在于,包括如下步骤:S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集;所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成;m和n均为整数;S2、对初始数据集进行预处理,获得预处理后的数据集;S3、构建疲劳仿真模型;所述疲劳仿真模型采用LSTM的神经网络模型实现;S4、将预处理后的数据集划分为两部分,一部分作为训练集,另一部分作为验证集;利用训练集对疲劳仿真模型进行训练,使疲劳仿真模型对训练集进行深度学习,获得训练后的疲劳仿真模型;S5、利用验证集和训练后的疲劳仿真模型,获得进行当前爬虫任务所需的休眠时间间隔后,将休眠时间间隔与爬虫程序进行整合,获得整合后的爬虫程序,再利用整合后的爬虫程序进行网络爬虫,从而实现拟人爬虫。2.根据权利要求1所述的基于疲劳仿真模型的拟人爬虫方法,其特征在于,步骤S1中、利用m个个体均对任意目标网站下的n个目标文章依次进行采集,获得初始数据集的实现方式为:步骤S11、进入任意目标网站;步骤S12、利用m个个体均对同一目标网站下的第i个目标文章进行点击,并记录每个个体的点击时间t
pi1
,i的初始值为1;其中,t
pi1
为第P个个体对第i个目标文章进行点击的时间;P和i均为整数,且i=1,2,3
……
,n,P=1,2,3
……
,m;步骤S13、m个个体均选择所需下载的第i个目标文章属性,并进行点击选择属性操作,同时记录每个个体的点击时间t
pi2
,所述目标文章属性为PDF或word;其中,t
pi2
为第P个个体对第i个目标文章的属性进行点击选择操作的时间;步骤S14、m个个体均根据选择的第i个目标文章的属性,进行点击下载操作,并记录每个个体的点击时间t
pi3
;t
pi3
为第P个个体对第i个目标文章的属性选择后,对所选择的属性的目标文章进行点击下载操作的时间;步骤S15、每个个体点击返回上一级目录,回到目标网站,并记录进行该操作时每个个体的点击时间t
pi4
;t
pi4
...

【专利技术属性】
技术研发人员:王红滨杨永恒江洋史腾飞李仲铀孙孟阳谢祥生何鸣孙彧周连科王念滨肖伟
申请(专利权)人:中国船舶重工集团公司第七一四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1