本发明专利技术涉及数据爬取技术领域,更具体的,涉及基于强化学习的自适应网页结构变化的数据采集方法及系统。本发明专利技术预先构建了两个Docker容器,其中一个安装了浏览器程序、爬虫程序、守护进程,另一个用于存放及更新Actor‑Critic模型;本发明专利技术基于强化学习的方式对Actor‑Critic模型进行训练,使Actor‑Critic模型可以适应于目标网页的结构变化,自动学习到新的爬取流程,减少去修改爬虫程序代码的人力成本。本发明专利技术解决了现有的数据采集不能够自适应网页结构变化的问题。
【技术实现步骤摘要】
本专利技术涉及数据爬取,更具体的,涉及:一种基于强化学习的自适应网页结构变化的数据采集方法、使用了该方法的数据采集系统。
技术介绍
1、目前,网络爬虫是获取互联网上信息数据的主要手段之一。通过自动地访问网页并提取其中的信息,网络爬虫可以帮助用户快速、高效地收集大量数据。例如,企业可以使用网络爬虫监测竞争对手的价格、产品信息、市场活动等,以便及时调整自己的策略;学术研究者可以使用网络爬虫获取大规模的文本数据,以进行语言分析、社会网络研究等方面的研究。
2、如果开发者的爬虫程序只在短时间内进行数据爬取,往往网页的结构变化很小,那么爬虫程序是可以很好地进行工作的。然而,在某些场景下需要长期监控某些网页的内容,例如:电商需要长期关注产品在数月甚至数年的价格波动。那么在这么长的周期内,网站往往会进行一些迭代更新,例如:点击按钮的位置或样式更改,这就会导致预先编写好的爬虫程序无法继续正常工作。为此,就需要针对性地迭代更新爬虫程序,会耗费大量的人力。
3、因此,专利技术人考虑设计一种能自适应网页结构变化的数据采集方法。
...
【技术保护点】
1.一种基于强化学习的自适应网页结构变化的数据采集方法,其用于对目标网页完成设定的爬取任务,其特征在于,其包括以下步骤:
2.根据权利要求1所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤二中,对A-C直接进行N轮正式训练,通过强化学习的方式更新A、C的参数,直至爬虫程序正确地完成设定的爬取任务;
3.根据权利要求1或2所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤3.1包括:
4.根据权利要求3所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤3.2包括:
<p>5.根据权利要求...
【技术特征摘要】
1.一种基于强化学习的自适应网页结构变化的数据采集方法,其用于对目标网页完成设定的爬取任务,其特征在于,其包括以下步骤:
2.根据权利要求1所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤二中,对a-c直接进行n轮正式训练,通过强化学习的方式更新a、c的参数,直至爬虫程序正确地完成设定的爬取任务;
3.根据权利要求1或2所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤3.1包括:
4.根据权利要求3所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤3.2包括:
5.根据权利要求4所述的基于强化学习的自适应网页结构变化的数据采集方法,其特征在于,步骤3.3包括:
6.根据权利要求5所述的基于强化学习的自适应网页...
【专利技术属性】
技术研发人员:王庆人,张恒,刘森林,任思宇,韩梦迪,颜登程,
申请(专利权)人:安徽大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。