System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书涉及互联网,尤其涉及一种网页数据采集方法、装置以及设备。
技术介绍
1、随着计算机和互联网技术的发展,端智能框架提供了丰富的设备信息,比如,时间信息、位置信息、用户行为信息等。使得能够通过该设备信息在端侧应用中执行相应动作,比如,在端侧进行智能下载、对展示内容进行排序等。但是其并不涉及对于用户在应用中所感知的内容的获取。
2、传统的方案中,通过网络请求拦截,在网络请求中感知网页数据(比如,网页中的页面、文案等),然后可以通过该网页数据执行相应动作,比如,通过文案进行风险识别。或者,通过线下真机对其中展示的网页数据进行数据采集,并进行内容理解。
3、基于此,需要更通用,且稳定性更高的网页数据采集方案。
技术实现思路
1、本说明书一个或多个实施例提供一种网页数据采集方法、装置、设备以及存储介质,用以解决如下技术问题:需要更通用,且稳定性更高的网页数据采集方案。
2、为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
3、本说明书一个或多个实施例提供的一种网页数据采集方法,包括:
4、基于用户的触发,启动前端页面,并触发网页数据采集管控,所述网页数据采集管控包括采集范围、采集频次;
5、对所述前端页面进行首屏渲染,并基于所述采集范围,确定所述首屏渲染对应的内容变化节点;
6、确定所述首屏渲染完成,基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集。
< ...【技术保护点】
1.一种网页数据采集方法,包括:
2.如权利要求1所述的方法,所述确定所述首屏渲染完成之后,所述方法还包括:
3.如权利要求1所述的方法,所述基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集,具体包括:
4.如权利要求1所述的方法,所述触发网页数据采集管控,具体包括:
5.如权利要求4所述的方法,所述根据所述疲劳度得到所述软件端对应的采样率,具体包括:
6.如权利要求5所述的方法,所述方法还包括:
7.如权利要求5所述的方法,所述根据所述历史采集记录、所述历史访问记录,得到所述软件端对应的窗口期间隔时长,具体包括:
8.如权利要求2所述的方法,所述在所述非首屏渲染过程中,通过更新后的所述内容变化节点对所述前端页面进行网页数据采集,具体包括:
9.如权利要求8所述的方法,所述确定所述内容变化节点对应的采集顺序,具体包括:
10.如权利要求9所述的方法,所述方法还包括:
11.一种网页数据采集装置,包括:
12.如权利要
13.如权利要求11所述的装置,所述网页数据采集模块,确定算力使用低于预设程度的空闲期;
14.如权利要求11所述的装置,所述采集管控启动模块,确定所述前端页面对应的软件端以及硬件端,并基于所述软件端对应的内容权限,以及所述硬件端的硬件能力,确定所述前端页面对应的采集范围;
15.如权利要求14所述的装置,所述采集管控启动模块,获取所述软件端对应的历史采集记录、历史访问记录;
16.如权利要求15所述的装置,所述采集管控启动模块,还包括:
17.如权利要求15所述的装置,所述采集管控启动模块,若根据所述历史采集记录,确定所述软件端已被采集,则确定当前时间与上一次采集时间的第一差值,并确定所述第一差值与窗口时长之间的第二差值,将所述第二差值作为所述软件端对应的窗口期间隔时长;
18.如权利要求12所述的装置,所述网页数据采集模块,确定所述非首屏渲染对应的非首屏的页面层级数;
19.如权利要求18所述的装置,所述网页数据采集模块,确定所述内容变化节点对应的DOM对象类型,所述DOM对象类型包括文字类型、图片类型,所述文字类型包括文字内容、文字样式、文字位置信息,所述图片类型包括url、图片位置信息;
20.如权利要求19所述的装置,所述装置还包括:
21.一种网页数据采集设备,包括:
...【技术特征摘要】
1.一种网页数据采集方法,包括:
2.如权利要求1所述的方法,所述确定所述首屏渲染完成之后,所述方法还包括:
3.如权利要求1所述的方法,所述基于所述采集范围和所述采集频次,通过所述内容变化节点对所述前端页面进行网页数据采集,具体包括:
4.如权利要求1所述的方法,所述触发网页数据采集管控,具体包括:
5.如权利要求4所述的方法,所述根据所述疲劳度得到所述软件端对应的采样率,具体包括:
6.如权利要求5所述的方法,所述方法还包括:
7.如权利要求5所述的方法,所述根据所述历史采集记录、所述历史访问记录,得到所述软件端对应的窗口期间隔时长,具体包括:
8.如权利要求2所述的方法,所述在所述非首屏渲染过程中,通过更新后的所述内容变化节点对所述前端页面进行网页数据采集,具体包括:
9.如权利要求8所述的方法,所述确定所述内容变化节点对应的采集顺序,具体包括:
10.如权利要求9所述的方法,所述方法还包括:
11.一种网页数据采集装置,包括:
12.如权利要求11所述的装置,所述网页数据采集模块,在确定所述首屏渲染完成之后,还包括:
13.如权利要求11所述的装置,所述网页数据采集模块,...
【专利技术属性】
技术研发人员:李小六,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。