【技术实现步骤摘要】
一种网页数据采集方法、装置、设备和计算机存储介质
本申请涉及计算机安全
,特别涉及一种网页数据采集方法、装置、设备和计算机存储介质。
技术介绍
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就被认为是现有技术。随着网络安全业务的发展,网络安全管理常常需要在各种应用网站上进行数据采集以用于判别诸如批量注册登录、薅羊毛等自动化恶意访问行为。对此类数据采集通常需要采用在网页上“埋点”采集的方式,即针对每一个具体页面的关键界面元素附近编写入新的代码来采集相关数据,但这种埋点技术存在以下缺点:1)由于每个页面元素及业务功能不同,因此在进行人工埋点时代码编写及维护代价高昂;2)一旦埋入代码后无法随时根据需要进行采集行为的调整,而需要等待代码发布新版本时才能调整更新,灵活性差。
技术实现思路
有鉴于此,本申请提供了一种网页数据采集方法、装置、设备和计算机存储介质,以便于解决上述缺点中的至少一种。具体技术方案如下:第 ...
【技术保护点】
1.一种网页数据采集方法,其特征在于,该方法包括:/n嵌入网页中的网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;/n依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据,并将扫描结果和采集结果上传至服务器端。/n
【技术特征摘要】
1.一种网页数据采集方法,其特征在于,该方法包括:
嵌入网页中的网页脚本在运行后,读取服务器端针对所述网页下发的配置文件,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型;
依据所述配置文件,扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据,并将扫描结果和采集结果上传至服务器端。
2.根据权利要求1所述的方法,其特征在于,所述网页脚本采用脚本<Script>标签的形式嵌入网页中。
3.根据权利要求1所述的方法,其特征在于,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
该方法还包括:
所述网页脚本依据所述配置文件检测浏览器运行环境数据,并将检测结果上传至服务器端。
4.根据权利要求1所述的方法,其特征在于,所述配置文件还包括:所述采集和上传过程中所采用的算法。
5.根据权利要求1至4任一项所述的方法,其特征在于,该方法还包括:
所述网页脚本重新读取所述服务器端下发的配置文件,该配置文件为所述服务器端依据所述网页脚本上传的结果调整后的配置文件。
6.一种网页数据采集方法,其特征在于,该方法包括:
服务器端接收嵌入网页中的网页脚本上传的扫描结果和采集结果,并通过管理平台展示给管理员;
其中所述扫描结果和采集结果为所述网页脚本读取服务器端针对所述网页下发的配置文件后,所述配置文件包括要扫描的网页元素以及要采集的操作行为数据的类型,依据配置文件扫描所述网页元素并采集所述网页元素的所述类型的操作行为数据后得到的。
7.根据权利要求6所述的方法,其特征在于,所述配置文件还包括:要检测的浏览器运行环境数据的类型;
该方法还包括:
所述服务器端接收所述网页脚本依据所述配置文件检测浏览器运行环境数据后上传的检测结果。
8.根据权利要求6所述的方法,其特征在于,所述配置文件还包括:所述采集和上传过程中所采用的算法。
9.根据权利要求6至8任一项所述的方法,其特征在于,该方法还包括:
所述服务器端依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件。
10.根据权利要求9所述的方法,其特征在于,所述服务器端依据所述网页脚本上传的结果,调整针对所述网页下发的配置文件包括:
依据所述网页脚本上传的扫描结果,若扫描到预设的关键网页元素,则在配置文件中针对关键网页元素设置要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,针对访问频率或访问量大于预设阈值的页面和网页元素,调整要采集的操作行为数据的类型;或者,
依据所述网页脚本上传的操作行为数据,对网页上的操作行为时间序列进行分析,针对分析得到的异常操作行为的网页,调整要扫描的网页元素和/或要采集的操作行为数据的类型。
11.一种网页数据采集装置,其特征在于,设置于嵌入网页中的网页脚本,该装置包括:
配置读取模块,用...
【专利技术属性】
技术研发人员:郑霖,林育民,
申请(专利权)人:瑞数信息技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。