基于疲劳仿真模型的拟人爬虫方法技术

技术编号：33639426 阅读：11 留言：0更新日期：2022-06-02 01:57

基于疲劳仿真模型的拟人爬虫方法，涉及信息获取领域。解决了现有针对反爬虫技术的爬虫方法，爬取效率低的问题。本发明专利技术方法包括：S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集，获得初始数据集；S2、对初始数据集进行预处理；S3、构建疲劳仿真模型；S4、将预处理后的数据集划分为两部分，一部分作为训练集，另一部分作为验证集；利用训练集对疲劳仿真模型进行训练，获得训练后的疲劳仿真模型；S5、利用验证集和训练后的疲劳仿真模型，获得进行当前爬虫任务所需的休眠时间间隔后，将休眠时间间隔与爬虫程序进行整合，获得整合后的爬虫程序，再利用整合后的爬虫程序进行网络爬虫，从而实现拟人爬虫。主要用于信息采集。从而实现拟人爬虫。主要用于信息采集。从而实现拟人爬虫。主要用于信息采集。

全部详细技术资料下载

【技术实现步骤摘要】
基于疲劳仿真模型的拟人爬虫方法

[0001]本专利技术涉及信息获取领域。

技术介绍

[0002]随着社会的进步和互联网的快速发展，更多的数据趋向于数字化。然而如何获取这些数据成为学者们的研究热点，以往的手工方式，一条一条的搜索显然已经不能满足，效率低下，耗费时间长，网络爬虫的出现改变了这一现状。根据人们对数据的需求不同以及应用的场合不同，网络爬虫也进行了分类，如通用网络爬虫和主题网络爬虫。传统的网络爬虫从一个或若干个起始URL开始，获取初始网页的URL，在对网页进行抓取的过程中不断的，将新的URL放入URL队列中，不断重复整个过程，直到满足爬虫终止的条件。
[0003]然而随着网络爬虫技术的发展，其对网络的影响越来越大。各大网站出于对数据保护的目的，都或多或少的设计了一些反爬虫的技术，如对请求头的检测，对用户的流量监控从而进行IP的限制，异步加载，在下载时设置验证码等，用各种手段限制爬虫程序。针对这些问题，目前所采用的方法分为两种，一种是对爬虫进行伪装，即反爬措施很难识别爬虫程序，然而此类方法采用统一的休息间隔；另外一种方法是针对出现的问题采用具体的措施，如针对网站的IP限制，采取的策略是更换IP或者采用IP池的方法。这两种方式在使用时都会使爬虫的爬取效率下降，因此，以上问题亟需解决。

技术实现思路

[0004]本专利技术目的是为了解决现有针对反爬虫技术的爬虫方法，爬取效率低的问题，本专利技术提供了一种基于疲劳仿真模型的拟人爬虫方法。
[0005]基于疲劳仿真模型的拟人爬虫方法，包括如...

【技术保护点】

【技术特征摘要】
1.基于疲劳仿真模型的拟人爬虫方法，其特征在于，包括如下步骤：S1、利用m个个体均对任意目标网站下的n个目标文章依次进行采集，获得初始数据集；所述的初始数据集由所有个体对所有目标文章进行采集操作获得的m
×
n组时间间隔序列构成；m和n均为整数；S2、对初始数据集进行预处理，获得预处理后的数据集；S3、构建疲劳仿真模型；所述疲劳仿真模型采用LSTM的神经网络模型实现；S4、将预处理后的数据集划分为两部分，一部分作为训练集，另一部分作为验证集；利用训练集对疲劳仿真模型进行训练，使疲劳仿真模型对训练集进行深度学习，获得训练后的疲劳仿真模型；S5、利用验证集和训练后的疲劳仿真模型，获得进行当前爬虫任务所需的休眠时间间隔后，将休眠时间间隔与爬虫程序进行整合，获得整合后的爬虫程序，再利用整合后的爬虫程序进行网络爬虫，从而实现拟人爬虫。2.根据权利要求1所述的基于疲劳仿真模型的拟人爬虫方法，其特征在于，步骤S1中、利用m个个体均对任意目标网站下的n个目标文章依次进行采集，获得初始数据集的实现方式为：步骤S11、进入任意目标网站；步骤S12、利用m个个体均对同一目标网站下的第i个目标文章进行点击，并记录每个个体的点击时间t
pi1
，i的初始值为1；其中，t
pi1
为第P个个体对第i个目标文章进行点击的时间；P和i均为整数，且i＝1,2,3
……
，n，P＝1,2,3
……
，m；步骤S13、m个个体均选择所需下载的第i个目标文章属性，并进行点击选择属性操作，同时记录每个个体的点击时间t
pi2
，所述目标文章属性为PDF或word；其中，t
pi2
为第P个个体对第i个目标文章的属性进行点击选择操作的时间；步骤S14、m个个体均根据选择的第i个目标文章的属性，进行点击下载操作，并记录每个个体的点击时间t
pi3
；t
pi3
为第P个个体对第i个目标文章的属性选择后，对所选择的属性的目标文章进行点击下载操作的时间；步骤S15、每个个体点击返回上一级目录，回到目标网站，并记录进行该操作时每个个体的点击时间t
pi4
；t
pi4
...

【专利技术属性】
技术研发人员：王红滨，杨永恒，江洋，史腾飞，李仲铀，孙孟阳，谢祥生，何鸣，孙彧，周连科，王念滨，肖伟，
申请(专利权)人：中国船舶重工集团公司第七一四研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人