网页识别方法、装置、介质及电子设备制造方法及图纸

技术编号:32643999 阅读:39 留言:0更新日期:2022-03-12 18:22
本公开涉及一种网页识别方法、装置、介质及电子设备,包括:在访问目标网页时,获取目标网页对应的快照文件和当前的访问数据,访问数据和快照文件中分别包括目标网页对应的访问参数和页面内容;在访问数据中的访问参数与快照文件中的访问参数不一致的情况下,定目标网页的页面发生变化;在访问数据中的访问参数与快照文件中的访问参数一致的情况下,根据访问数据中的页面内容和快照文件中的页面内容,确定目标网页的页面是否发生变化。这样,能够快速识别网页的明显变化,提高识别网页变化的效率,并且还能通过对该访问参数的识别来增加网页变化识别的有效率,避免由于仅对网页文本快照或网页图像快照进行变化识别而导致的漏识别的问题。别的问题。别的问题。

【技术实现步骤摘要】
网页识别方法、装置、介质及电子设备


[0001]本公开涉及计算机
,具体地,涉及一种网页识别方法、装置、介质及电子设备。

技术介绍

[0002]在很多场景中都需要对网页的数据变化进行监控,例如,在数据采集场景中,经常需要采集网页中的数据,并将采集的页面数据落地,或者给其他下游应用提供实时的数据接口服务。或者,为了保障网页浏览安全,也需要对网页中的数据进行监控,以在网页发生无法信任的安全时及时进行告警。现有网页变化识别技术中,主要分为两大类,包括基于文本比较的网页变化识别技术,例如基于结构文档(HTML、XML)的Diff算法,用于比较整个网页文本,来判断网页内容是否发生变化,以及基于视觉的网页变化识别技术,通过对网页页面对应的网页图像识别进行网页变化比对判定。以上两种方案都只能实现对整个网页内容进行比较来识别网页是否变化的功能,效率较低且无法对网页中的部分内容进行针对性识别。

技术实现思路

[0003]本公开的目的是提供一种网页识别方法、装置、介质及电子设备,能够在网页有明显变化时,快速识别该变化,提高识别网页变化的效率,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页识别方法,其特征在于,所述方法包括:在访问目标网页时,获取所述目标网页对应的快照文件和当前的访问数据,所述访问数据和所述快照文件中分别包括所述目标网页对应的访问参数和页面内容;在所述访问数据中的访问参数与所述快照文件中的访问参数不一致的情况下,确定所述目标网页的页面发生变化;在所述访问数据中的访问参数与所述快照文件中的访问参数一致的情况下,根据所述访问数据中的页面内容和所述快照文件中的页面内容,确定所述目标网页的页面是否发生变化。2.根据权利要求1所述的方法,其特征在于,所述根据所述访问数据中的页面内容和所述快照文件中的页面内容,确定所述目标网页的页面是否发生变化包括:根据所述快照文件中的页面内容确定所述目标网页对应的网页特征值;在所述访问数据中的页面内容中查找所述网页特征值;若在所述访问数据中的页面内容中无法查找到所述网页特征值,确定所述目标网页的页面发生变化。3.根据权利要求2所述的方法,其特征在于,所述根据所述快照文件中的页面内容确定所述目标网页对应的网页特征值包括:根据所述快照文件中的访问参数中的响应体类型确定目标选择器;对所述快照文件中的页面内容进行结构化,并确定结构化后的所述页面内容中保存网页真实数据的目标区域;根据所述目标区域的位置确定所述目标选择器的目标路径;将所述目标路径作为所述目标网页的网页特征值。4.根据权利要求3所述的方法,其特征在于,所述根据所述访问数据中的页面内容和所述快照文件中的页面内容,确定所述目标网页的页面是否发生变化还包括:若在所述访问数据中的页面内容中能够查找到所述网页特征值,获取所述访问数据中的页面内容中与所述网页特征值对应的响应数据,以及所述快照文件中的页面内容中与所述网页特征值对应的快照数据;在所述响应数据和所述快照数据不一致的情况下,确定所述目标网页的页面发生变化。5.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:李栋
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1