页面信息自动抓取的检测方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:33084241 阅读:21 留言:0更新日期:2022-04-15 10:44
本公开公开了一种页面信息自动抓取的检测方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,具体涉及大数据、信息流等人工智能技术领域。具体实现方案为:在所获取的应用所请求的响应页面中,插入检测代码,以及将插入检测代码的响应页面发送给应用,以供应用执行检测代码,以注册待监听的DOM树变化事件和DOM树变化事件的响应操作;响应于应用所提供的响应页面的DOM树结构信息,对响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为;其中,响应页面的DOM树结构信息为应用通过执行DOM树变化事件的响应操作提供;响应于确定存在页面信息自动抓取的异常行为,进行异常响应处理。进行异常响应处理。进行异常响应处理。

【技术实现步骤摘要】
页面信息自动抓取的检测方法、装置、电子设备及可读存储介质


[0001]本公开涉及数据处理
,具体涉及大数据、信息流等人工智能


技术介绍

[0002]随着互联网的深入发展,应用于终端上的应用(Application,APP)层出不穷。用户在使用应用的过程中,可能会遇到应用的页面信息被自动抓取工具进行恶意抓取的情况。这样,不但导致应用的核心内容被盗取,还有可能导致应用的业务服务器出现瘫痪。
[0003]因此,如何有效保护应用的页面信息,防止其被自动抓取工具进行恶意抓取,具有重要意义。

技术实现思路

[0004]本公开提供了一种页面信息自动抓取的检测方法、装置、电子设备及可读存储介质。
[0005]根据本公开的一方面,提供了一种页面信息自动抓取的检测方法,包括:
[0006]在所获取的应用所请求的响应页面中,插入检测代码,以及将插入所述检测代码的响应页面发送给所述应用,以供所述应用执行所述检测代码,以注册待监听的DOM树变化事件和所述DOM树变化事件的响应操作;
[0007]响应于所述应用所提供的所述响应页面的DOM树结构信息,对所述响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为;其中,所述响应页面的DOM树结构信息为所述应用通过执行所述DOM树变化事件的响应操作提供;
[0008]响应于确定存在页面信息自动抓取的异常行为,进行异常响应处理。
[0009]根据本公开的另一方面,提供了一种页面信息自动抓取的检测装置,包括:
[0010]代码插入单元,用于在所获取的应用所请求的响应页面中,插入检测代码,以及将插入所述检测代码的响应页面发送给所述应用,以供所述应用执行所述检测代码,以注册待监听的DOM树变化事件和所述DOM树变化事件的响应操作;
[0011]结构检测单元,用于响应于所述应用所提供的所述响应页面的DOM树结构信息,对所述响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为;其中,所述响应页面的DOM树结构信息为所述应用通过执行所述DOM树变化事件的响应操作提供;
[0012]异常处理单元,用于响应于确定存在页面信息自动抓取的异常行为,进行异常响应处理。
[0013]根据本公开的再一方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一
个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
[0017]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
[0018]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
[0019]由上述技术方案可知,本公开实施例通过在所获取的应用所请求的响应页面中,插入检测代码,以及将插入所述检测代码的响应页面发送给所述应用,以供所述应用执行所述检测代码,以注册待监听的DOM树变化事件和所述DOM树变化事件的响应操作,进而,响应于所述应用所提供的所述响应页面的DOM树结构信息,对所述响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为,其中,所述响应页面的DOM树结构信息为所述应用通过执行所述DOM树变化事件的响应操作提供,使得能够响应于确定存在页面信息自动抓取的异常行为,进行异常响应处理,由于在响应页面插入了能够监听DOM树变化事件的检测代码,使得能够依据响应页面的DOM树变化确定是否存在页面信息自动抓取的异常行为,能够有效检测到基于页面的页面内容的常规检测无法检测到的一些页面信息自动抓取的异常行为,从而提高了页面信息自动抓取检测的可靠性。
[0020]另外,采用本公开所提供的技术方案,能够有效提高应用的页面信息访问的安全性。
[0021]另外,采用本公开所提供的技术方案,能够有效地提高用户的体验。
[0022]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0024]图1是根据本公开第一实施例的示意图;
[0025]图2是根据本公开第二实施例的示意图;
[0026]图3是根据本公开第三实施例的示意图;
[0027]图4是用来实现本公开实施例的页面信息自动抓取的检测方法的电子设备的框图。
具体实施方式
[0028]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
[0030]需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
[0031]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0032]随着互联网的深入发展,应用于终端上的应用(Application,APP)层出不穷。用户在使用应用的过程中,可能会遇到应用的页面信息被自动抓取工具进行恶意抓取的情况。这样,不但导致应用的核心内容被盗取,还有可能导致应用的业务服务器出现瘫痪。
[0033]应用可以执行脚本语言编写的代码,页面代码可以执行在页面空间,而插件机制的代码执行在特殊的进程空间,可以控制页面空间的文档对象模型(Document Object Model,DOM)树结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页面信息自动抓取的检测方法,其特征在于,包括:在所获取的应用所请求的响应页面中,插入检测代码,以及将插入所述检测代码的响应页面发送给所述应用,以供所述应用执行所述检测代码,以注册待监听的DOM树变化事件和所述DOM树变化事件的响应操作;响应于所述应用所提供的所述响应页面的DOM树结构信息,对所述响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为;其中,所述响应页面的DOM树结构信息为所述应用通过执行所述DOM树变化事件的响应操作提供;响应于确定存在页面信息自动抓取的异常行为,进行异常响应处理。2.根据权利要求1所述的方法,其特征在于,所述响应于所述应用所提供的所述响应页面的DOM树结构信息,对所述响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为,包括:响应于所述应用所触发的包含所述响应页面的DOM树结构信息的页面请求,对所述响应页面的DOM树结构信息进行检测处理,以确定是否存在页面信息自动抓取的异常行为;其中,所述响应页面的DOM树结构信息为所述应用通过执行所述DOM树变化事件的响应操作插入所述页面请求的。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于确定不存在页面信息自动抓取的异常行为,正常获取所述应用所请求的另一响应页面。4.根据权利要求1所述的方法,其特征在于,所述响应页面的DOM树结构信息,包括:所述响应页面的DOM树的结构变化信息;或者所述响应页面的DOM树的完整结构信息。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述对所述响应页面的DOM树结构信息进行检测处理,包括:根据所述响应页面的DOM树结构信息,确定所述DOM树变化的元素;根据所述DOM树变化的元素的元素属性,确定是否存在页面信息自动抓取的异常行为。6.一种页面信息自动抓取的检测装置,其特征在于,包括:代码插入单元,用于在所获取的应用所请求的响应页面中,插入检测代码,以及将插入所述检测代码的响应页面发送给所述应用,以供所述应用执行...

【专利技术属性】
技术研发人员:马粤李勇罗仕强李凯
申请(专利权)人:瑞数信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1