System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种网页数据采集方法、装置以及设备制造方法及图纸_技高网

一种网页数据采集方法、装置以及设备制造方法及图纸

技术编号:40300908 阅读:6 留言:0更新日期:2024-02-07 20:47
本说明书实施例公开了一种网页数据采集方法、装置以及设备。方案包括:基于用户的触发,启动前端页面,并触发网页数据采集管控,网页数据采集管控包括采集范围、采集频次;对前端页面进行首屏渲染,并基于采集范围,确定首屏渲染对应的内容变化节点;确定首屏渲染完成,基于采集范围和采集频次,通过内容变化节点对前端页面进行网页数据采集。

【技术实现步骤摘要】

本说明书涉及互联网,尤其涉及一种网页数据采集方法、装置以及设备


技术介绍

1、随着计算机和互联网技术的发展,端智能框架提供了丰富的设备信息,比如,时间信息、位置信息、用户行为信息等。使得能够通过该设备信息在端侧应用中执行相应动作,比如,在端侧进行智能下载、对展示内容进行排序等。但是其并不涉及对于用户在应用中所感知的内容的获取。

2、传统的方案中,通过网络请求拦截,在网络请求中感知网页数据(比如,网页中的页面、文案等),然后可以通过该网页数据执行相应动作,比如,通过文案进行风险识别。或者,通过线下真机对其中展示的网页数据进行数据采集,并进行内容理解。

3、基于此,需要更通用,且稳定性更高的网页数据采集方案。


技术实现思路

1、本说明书一个或多个实施例提供一种网页数据采集方法、装置、设备以及存储介质,用以解决如下技术问题:需要更通用,且稳定性更高的网页数据采集方案。

2、为解决上述技术问题,本说明书一个或多个实施例是这样实现的:

3、本说明书一个或多个实施例提供的一种网页数据采集方法,包括:

4、基于用户的触发,启动前端页面,并触发网页数据采集管控,所述网页数据采集管控包括采集范围、采集频次;

5、对所述前端页面进行首屏渲染,并基于所述采集范围,确定所述首屏渲染对应的内容变化节点;

6、确定所述首屏渲染完成,基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集。

<p>7、本说明书一个或多个实施例提供的一种网页数据采集装置,包括:

8、采集管控启动模块,基于用户的触发,启动前端页面,并触发网页数据采集管控,所述网页数据采集管控包括采集范围、采集频次;

9、内容变化节点确定模块,对所述前端页面进行首屏渲染,并基于所述采集范围,确定所述首屏渲染对应的内容变化节点;

10、网页数据采集模块,确定所述首屏渲染完成,基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集。

11、本说明书一个或多个实施例提供的一种网页数据采集设备,包括:

12、至少一个处理器;以及,

13、与所述至少一个处理器通信连接的存储器;其中,

14、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:

15、基于用户的触发,启动前端页面,并触发网页数据采集管控,所述网页数据采集管控包括采集范围、采集频次;

16、对所述前端页面进行首屏渲染,并基于所述采集范围,确定所述首屏渲染对应的内容变化节点;

17、确定所述首屏渲染完成,基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集。

18、本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:

19、基于用户的触发,启动前端页面,并触发网页数据采集管控,所述网页数据采集管控包括采集范围、采集频次;

20、对所述前端页面进行首屏渲染,并基于所述采集范围,确定所述首屏渲染对应的内容变化节点;

21、确定所述首屏渲染完成,基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集。

22、本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:

23、相比于通过网络请求拦截的方案,无需拦截网络请求,降低了内存性能的消耗,降低了稳定性风险,且在进行网页数据的采集时,无论内容是显示还是隐藏都能够进行感知,保证了采集到的网页数据的全面以及消除了采集时带来的偏差。

24、相比于线下真机的方案,无需线下真机,降低了实现成本,且不再局限于线下使用,增加了方案实现的灵活性以及通用性。

本文档来自技高网
...

【技术保护点】

1.一种网页数据采集方法,包括:

2.如权利要求1所述的方法,所述确定所述首屏渲染完成之后,所述方法还包括:

3.如权利要求1所述的方法,所述基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集,具体包括:

4.如权利要求1所述的方法,所述触发网页数据采集管控,具体包括:

5.如权利要求4所述的方法,所述根据所述疲劳度得到所述软件端对应的采样率,具体包括:

6.如权利要求5所述的方法,所述方法还包括:

7.如权利要求5所述的方法,所述根据所述历史采集记录、所述历史访问记录,得到所述软件端对应的窗口期间隔时长,具体包括:

8.如权利要求2所述的方法,所述在所述非首屏渲染过程中,通过更新后的所述内容变化节点对所述前端页面进行网页数据采集,具体包括:

9.如权利要求8所述的方法,所述确定所述内容变化节点对应的采集顺序,具体包括:

10.如权利要求9所述的方法,所述方法还包括:

11.一种网页数据采集装置,包括:

12.如权利要求11所述的装置,所述网页数据采集模块,在确定所述首屏渲染完成之后,还包括:

13.如权利要求11所述的装置,所述网页数据采集模块,确定算力使用低于预设程度的空闲期;

14.如权利要求11所述的装置,所述采集管控启动模块,确定所述前端页面对应的软件端以及硬件端,并基于所述软件端对应的内容权限,以及所述硬件端的硬件能力,确定所述前端页面对应的采集范围;

15.如权利要求14所述的装置,所述采集管控启动模块,获取所述软件端对应的历史采集记录、历史访问记录;

16.如权利要求15所述的装置,所述采集管控启动模块,还包括:

17.如权利要求15所述的装置,所述采集管控启动模块,若根据所述历史采集记录,确定所述软件端已被采集,则确定当前时间与上一次采集时间的第一差值,并确定所述第一差值与窗口时长之间的第二差值,将所述第二差值作为所述软件端对应的窗口期间隔时长;

18.如权利要求12所述的装置,所述网页数据采集模块,确定所述非首屏渲染对应的非首屏的页面层级数;

19.如权利要求18所述的装置,所述网页数据采集模块,确定所述内容变化节点对应的DOM对象类型,所述DOM对象类型包括文字类型、图片类型,所述文字类型包括文字内容、文字样式、文字位置信息,所述图片类型包括url、图片位置信息;

20.如权利要求19所述的装置,所述装置还包括:

21.一种网页数据采集设备,包括:

...

【技术特征摘要】

1.一种网页数据采集方法,包括:

2.如权利要求1所述的方法,所述确定所述首屏渲染完成之后,所述方法还包括:

3.如权利要求1所述的方法,所述基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集,具体包括:

4.如权利要求1所述的方法,所述触发网页数据采集管控,具体包括:

5.如权利要求4所述的方法,所述根据所述疲劳度得到所述软件端对应的采样率,具体包括:

6.如权利要求5所述的方法,所述方法还包括:

7.如权利要求5所述的方法,所述根据所述历史采集记录、所述历史访问记录,得到所述软件端对应的窗口期间隔时长,具体包括:

8.如权利要求2所述的方法,所述在所述非首屏渲染过程中,通过更新后的所述内容变化节点对所述前端页面进行网页数据采集,具体包括:

9.如权利要求8所述的方法,所述确定所述内容变化节点对应的采集顺序,具体包括:

10.如权利要求9所述的方法,所述方法还包括:

11.一种网页数据采集装置,包括:

12.如权利要求11所述的装置,所述网页数据采集模块,在确定所述首屏渲染完成之后,还包括:

13.如权利要求11所述的装置,所述网页数据采集模块,...

【专利技术属性】
技术研发人员:李小六
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1