System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 并发抓取方法、设备、存储介质及装置制造方法及图纸_技高网

并发抓取方法、设备、存储介质及装置制造方法及图纸

技术编号:41418062 阅读:7 留言:0更新日期:2024-05-21 20:51
本发明专利技术涉及计算机技术领域,公开了一种并发抓取方法、设备、存储介质及装置,该方法包括:将待抓取链接添加至连接池,根据连接池的工作状态将待抓取链接分配到浏览器的网页中,基于网页并发抓取待抓取链接的内容;由于本发明专利技术中,通过连接池和带渲染引擎的网页并发抓取待抓取链接的内容,从而能够在线渲染异步html数据并进行抓取,进而能够满足异步html数据抓取需求,提升用户体验。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种并发抓取方法、设备、存储介质及装置


技术介绍

1、随着网页技术的不断发展,数据驱动框架的不断普及,市面上像vue、react、angular框架开发的业务越来越多。但是,在实际应用中,存在单页面应用的搜索引擎优化(search engine optimization,seo)收录效果差,主要原因是单页面应用的主要内容是在浏览器运行时渲染的异步数据,搜索引擎的蜘蛛只能拿到不带主要内容的同步html数据。

2、上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。


技术实现思路

1、本专利技术的主要目的在于提供一种并发抓取方法、设备、存储介质及装置,旨在解决现有技术中单页面应用的主要内容是在浏览器运行时渲染的异步数据,搜索引擎的蜘蛛只能拿到不带主要内容的同步html数据的技术问题。

2、为实现上述目的,本专利技术提供一种并发抓取方法,所述并发抓取方法包括以下步骤:

3、将待抓取链接添加至连接池;

4、根据所述连接池的工作状态将所述待抓取链接分配到浏览器的网页中;

5、基于所述网页并发抓取所述待抓取链接的内容。

6、可选地,所述基于所述网页并发抓取所述待抓取链接的内容的步骤,包括:

7、基于所述网页监测所述待抓取链接的dom是否加载完成;

8、在所述dom加载完成时,并发抓取所述待抓取链接的内容。

9、可选地,所述基于所述网页监测所述待抓取链接的dom是否加载完成的步骤,包括:

10、获取所述待抓取链接的开始处理时间;

11、基于所述网页监测所述待抓取链接的body变化;

12、根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成。

13、可选地,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成的步骤,包括:

14、在dom变化不为第一次dom变化时,检测所述body变化的变化节点数量是否小于预设阈值,获得节点检测结果;

15、根据所述开始处理时间检测所述body变化的间歇变化时间是否超过预设时间,获得时间检测结果;

16、根据所述节点检测结果和所述时间检测结果监测所述待抓取链接的dom是否加载完成。

17、可选地,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成的步骤,包括:

18、在dom变化为第一次dom变化时,检测所述dom变化是否超时;

19、在所述dom变化未超时时,检测body是否存在下次变化;

20、若是,则检测所述body变化的变化节点数量是否小于预设阈值,获得节点检测结果;

21、根据所述开始处理时间检测所述body变化的间歇变化时间是否超过预设时间,获得时间检测结果;

22、根据所述节点检测结果和所述时间检测结果监测所述待抓取链接的dom是否加载完成。

23、可选地,所述并发抓取方法还包括:

24、在所述dom变化超时,或body不存在下次变化时,判定所述dom未加载完成。

25、可选地,所述将待抓取链接添加至连接池的步骤,包括:

26、在接收到待抓取链接时,检测连接池是否开启;

27、在所述连接池开启时,检测所述连接池是否占满;

28、在所述连接池未占满时,将所述待抓取链接添加至所述连接池的处理队列。

29、可选地,所述在所述连接池未占满时,将所述待抓取链接添加至所述连接池的处理队列的步骤,包括:

30、在所述连接池未占满时,为所述待抓取链接设置id编号;

31、基于所述id编号将所述待抓取链接添加至所述连接池的处理队列。

32、可选地,所述在所述连接池开启时,检测所述连接池是否占满的步骤之后,还包括:

33、在所述连接池已占满时,检测缓冲队列是否已占满;

34、在所述缓冲队列未占满时,将所述待抓取链接添加至所述连接池的缓冲队列。

35、可选地,所述在所述缓冲队列未占满时,将所述待抓取链接添加至所述连接池的缓冲队列的步骤,包括:

36、在所述缓冲队列未占满时,为所述待抓取链接设置优先级;

37、基于所述优先级将所述待抓取链接添加至所述连接池的缓冲队列。

38、可选地,所述基于所述网页并发抓取所述待抓取链接的内容的步骤之后,还包括:

39、在抓取完成后,对所述待抓取链接进行标记;

40、将标记信息发送至所述连接池。

41、此外,为实现上述目的,本专利技术还提出一种并发抓取设备,所述并发抓取设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的并发抓取程序,所述并发抓取程序配置为实现如上文所述的并发抓取方法。

42、此外,为实现上述目的,本专利技术还提出一种存储介质,所述存储介质上存储有并发抓取程序,所述并发抓取程序被处理器执行时实现如上文所述的并发抓取方法。

43、此外,为实现上述目的,本专利技术还提出一种并发抓取装置,所述并发抓取装置包括:添加模块、管理模块以及抓取模块;

44、所述添加模块,用于将待抓取链接添加至连接池;

45、所述管理模块,用于根据所述连接池的工作状态将所述待抓取链接分配到浏览器的网页中;

46、所述抓取模块,用于基于所述网页并发抓取所述待抓取链接的内容。

47、可选地,所述抓取模块,还用于基于所述网页监测所述待抓取链接的dom是否加载完成;

48、所述抓取模块,还用于在所述dom加载完成时,并发抓取所述待抓取链接的内容。

49、可选地,所述抓取模块,还用于获取所述待抓取链接的开始处理时间;

50、所述抓取模块,还用于基于所述网页监测所述待抓取链接的body变化;

51、所述抓取模块,还用于根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成。

52、可选地,所述抓取模块,还用于在dom变化不为第一次dom变化时,检测所述body变化的变化节点数量是否小于预设阈值,获得节点检测结果;

53、所述抓取模块,还用于根据所述开始处理时间检测所述body变化的间歇变化时间是否超过预设时间,获得时间检测结果;

54、所述抓取模块,还用于根据所述节点检测结果和所述时间检测结果监测所述待抓取链接的dom是否加载完成。

55、可选地,所述抓取模块,还用于在dom变化为第一次dom变化时,检测所述dom变化是否超时;

56、所述抓取模块,还用于在所述dom变化未超时时,检测body是否存在下次变化;

57、所述抓取模块,还用于若是,则检测所述body变化的变化节点数量本文档来自技高网...

【技术保护点】

1.一种并发抓取方法,其特征在于,所述并发抓取方法包括以下步骤:

2.如权利要求1所述的并发抓取方法,其特征在于,所述基于所述网页并发抓取所述待抓取链接的内容的步骤,包括:

3.如权利要求2所述的并发抓取方法,其特征在于,所述基于所述网页监测所述待抓取链接的DOM是否加载完成的步骤,包括:

4.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的DOM是否加载完成的步骤,包括:

5.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的DOM是否加载完成的步骤,包括:

6.如权利要求5所述的并发抓取方法,其特征在于,所述并发抓取方法还包括:

7.如权利要求1至6中任一项所述的并发抓取方法,其特征在于,所述将待抓取链接添加至连接池的步骤,包括:

8.一种并发抓取设备,其特征在于,所述并发抓取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的并发抓取程序,所述并发抓取程序被所述处理器执行时实现如权利要求1至7中任一项所述的并发抓取方法。

9.一种存储介质,其特征在于,所述存储介质上存储有并发抓取程序,所述并发抓取程序被处理器执行时实现如权利要求1至7中任一项所述的并发抓取方法。

10.一种并发抓取装置,其特征在于,所述并发抓取装置包括:添加模块、管理模块以及抓取模块;

...

【技术特征摘要】

1.一种并发抓取方法,其特征在于,所述并发抓取方法包括以下步骤:

2.如权利要求1所述的并发抓取方法,其特征在于,所述基于所述网页并发抓取所述待抓取链接的内容的步骤,包括:

3.如权利要求2所述的并发抓取方法,其特征在于,所述基于所述网页监测所述待抓取链接的dom是否加载完成的步骤,包括:

4.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成的步骤,包括:

5.如权利要求3所述的并发抓取方法,其特征在于,所述根据所述开始处理时间和所述body变化监测所述待抓取链接的dom是否加载完成的步骤,包括:

6.如权利要求5...

【专利技术属性】
技术研发人员:刘朝旭甘敏
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1