并发抓取方法、设备、存储介质及装置制造方法及图纸

技术编号:41418062 阅读:27 留言:0更新日期:2024-05-21 20:51
本发明专利技术涉及计算机技术领域,公开了一种并发抓取方法、设备、存储介质及装置,该方法包括:将待抓取链接添加至连接池,根据连接池的工作状态将待抓取链接分配到浏览器的网页中,基于网页并发抓取待抓取链接的内容;由于本发明专利技术中,通过连接池和带渲染引擎的网页并发抓取待抓取链接的内容,从而能够在线渲染异步html数据并进行抓取,进而能够满足异步html数据抓取需求,提升用户体验。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种并发抓取方法、设备、存储介质及装置


技术介绍

1、随着网页技术的不断发展,数据驱动框架的不断普及,市面上像vue、react、angular框架开发的业务越来越多。但是,在实际应用中,存在单页面应用的搜索引擎优化(search engine optimization,seo)收录效果差,主要原因是单页面应用的主要内容是在浏览器运行时渲染的异步数据,搜索引擎的蜘蛛只能拿到不带主要内容的同步html数据。

2、上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本专利技术的主要目的在于提供一种并发抓取方法、设备、存储介质及装置,旨在解决现有技术中单页面应用的主要内容是在浏览器运行时渲染的异步数据,搜索引擎的蜘蛛只能拿到不带主要内容的同步html数据的技术问题。

2、为实现上述目的,本专利技术提供一种并发抓取方法,所述并发抓取方法包括以下步骤:

3、将待抓取链接添加至连接池;>

4、根据所述本文档来自技高网...

【技术保护点】

1.一种并发抓取方法,其特征在于,所述并发抓取方法包括以下步骤:

2.如权利要求1所述的并发抓取方法,其特征在于,所述基于所述网页并发抓取所述待抓取链接的内容的步骤,包括:

3.如权利要求2所述的并发抓取方法,其特征在于,所述基于所述网页监测所述待抓取链接的DOM是否加载完成的步骤,包括:

4.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的DOM是否加载完成的步骤,包括:

5.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的...

【技术特征摘要】

1.一种并发抓取方法,其特征在于,所述并发抓取方法包括以下步骤:

2.如权利要求1所述的并发抓取方法,其特征在于,所述基于所述网页并发抓取所述待抓取链接的内容的步骤,包括:

3.如权利要求2所述的并发抓取方法,其特征在于,所述基于所述网页监测所述待抓取链接的dom是否加载完成的步骤,包括:

4.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成的步骤,包括:

5.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成的步骤,包括:

6.如权利要求5...

【专利技术属性】
技术研发人员:刘朝旭甘敏
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1