网页场景识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:24092000 阅读:67 留言:0更新日期:2020-05-09 08:29
本申请公开了网页场景识别方法、装置、电子设备及存储介质,涉及人工智能领域,其中方法可包括:根据不同网页场景下的网页元素特征构建特征库;针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素;针对任一网页元素,分别从网页中获取该网页元素在该网页场景下的各特征的特征信息,并通过将获取到的各特征信息与特征库中的对应特征信息进行比较,确定出该网页元素是否符合该网页场景;其中,对应特征信息为对特征库中该网页场景下的特征进行条件配置后的特征信息。应用本申请所述方案,可提升识别结果的准确性等。

Methods, devices, electronic devices and storage media of Web scene recognition

【技术实现步骤摘要】
网页场景识别方法、装置、电子设备及存储介质
本申请涉及计算机应用技术,特别涉及人工智能领域的网页场景识别方法、装置、电子设备及存储介质。
技术介绍
在抓取分析或一些交互体验自动化分析等项目中,我们需要能够准确快速的识别出各种网页场景。网页场景识别可包括识别页面中的购物车按钮、识别页面中的广告等。目前的识别方式主要针对一些特定的网页场景进行设计,而实际上针对不同网页场景的识别需要越来越多且在不断增加,对于特定的网页场景之外的网页场景的识别,识别结果的准确性会很差。
技术实现思路
有鉴于此,本申请提供了网页场景识别方法、装置、电子设备及存储介质。一种网页场景识别方法,包括:根据不同网页场景下的网页元素特征构建特征库;针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素;针对任一网页元素,分别从所述网页中获取所述网页元素在所述网页场景下的各特征的特征信息,并通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景;其中,所述对应特征信息为对所述特征库中所述网页场景下的特征进行条件配置后的特征信息。根据本申请一优选实施例,所述特征库中包含适用于各网页场景的通用特征以及适用于特定网页场景的专用特征;不同类别的特征分别按照预定的特征数据格式进行存储。根据本申请一优选实施例,所述通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景包括:>通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度;若所述置信度大于预先设定的阈值,则确定所述网页元素符合所述网页场景,否则,确定所述网页元素不符合所述网页场景。根据本申请一优选实施例,该方法进一步包括:分别为所述特征库中的各特征设置角色、分组及权重;所述通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度包括:确定获取到的各特征信息与所述对应特征信息是否相匹配,根据确定结果以及各特征的角色、分组及权重信息,按照预定规则计算出所述网页元素的置信度。根据本申请一优选实施例,所述网页场景包括:静态类网页场景以及动态类网页场景;若所述待识别的网页场景为动态类网页场景,则该方法进一步包括:针对符合所述网页场景的网页元素,监听针对所述网页元素的交互操作,并确定所述交互操作所带来的页面变动是否符合预期。根据本申请一优选实施例,该方法进一步包括:获取网页场景识别请求,若所述网页场景识别请求中包含多于一个网页场景,则确定各网页场景的识别顺序,并按照所述识别顺序,依次将各网页场景作为所述待识别的网页场景进行处理。根据本申请一优选实施例,该方法进一步包括:当任一网页场景识别完成后,若进行了页面变动,则将所述网页恢复为页面变动之前的状态,并基于恢复后的网页进行下一网页场景的识别。一种网页场景识别装置,包括:预处理单元以及识别单元;所述预处理单元,用于根据不同网页场景下的网页元素特征构建特征库;所述识别单元,用于针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素,针对任一网页元素,分别从所述网页中获取所述网页元素在所述网页场景下的各特征的特征信息,并通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景,其中,所述对应特征信息为对所述特征库中所述网页场景下的特征进行条件配置后的特征信息。根据本申请一优选实施例,所述特征库中包含适用于各网页场景的通用特征以及适用于特定网页场景的专用特征;不同类别的特征分别按照预定的特征数据格式进行存储。根据本申请一优选实施例,所述识别单元通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度,若所述置信度大于预先设定的阈值,则确定所述网页元素符合所述网页场景,否则,确定所述网页元素不符合所述网页场景。根据本申请一优选实施例,所述预处理单元进一步用于,分别为所述特征库中的各特征设置角色、分组及权重;所述识别单元确定获取到的各特征信息与所述对应特征信息是否相匹配,根据确定结果以及各特征的角色、分组及权重信息,按照预定规则计算出所述网页元素的置信度。根据本申请一优选实施例,所述网页场景包括:静态类网页场景以及动态类网页场景;若所述待识别的网页场景为动态类网页场景,则所述识别单元进一步用于,针对符合所述网页场景的网页元素,监听针对所述网页元素的交互操作,并确定所述交互操作所带来的页面变动是否符合预期。根据本申请一优选实施例,所述识别单元进一步用于,获取网页场景识别请求,若所述网页场景识别请求中包含多于一个网页场景,则确定各网页场景的识别顺序,并按照所述识别顺序,依次将各网页场景作为所述待识别的网页场景进行处理。根据本申请一优选实施例,所述识别单元进一步用于,当任一网页场景识别完成后,若进行了页面变动,则将所述网页恢复为页面变动之前的状态,并基于恢复后的网页进行下一网页场景的识别。一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。上述申请中的一个实施例具有如下优点或有益效果:可根据不同网页场景下的网页元素特征构建特征库,并可根据实际需要对各网页场景下的特征进行条件配置等,这样,当需要针对任一网页场景进行识别时,可针对待处理的网页中的任一网页元素,通过将从网页中获取到的该网页元素在该网页场景下的各特征的特征信息与特征库中的对应特征信息进行比较,确定出该网页元素是否符合该网页场景,该方式可适用于任意的网页场景,且均能得到比较准确的识别结果,当出现新的网页场景时,只要对特征库进行相应的扩展及配置即可,实现起来简单方便;该方式中,可在待处理的网页打开后处于运行状态时执行后续的处理,从而可以获取到更为全面准确的信息,如特征信息,从而进一步提高了识别结果的准确性等;现有方式主要适用于静态类网页场景的识别,而在实际应用中,很多情况下还会需要进行动态类网页场景的识别,而本申请所述方式同样适用于动态类网页场景的识别,如可监听针对网页元素的交互操作并确定交互操作所带来的页面变动是否符合预期等;另外,当获取到的网页场景识别请求中包含多个网页场景时,不同网页场景的识别可采用串行的方式,以避免不同网页场景之间的干扰,某一网页场景识别完成后,还可进行变动重置,以便基于重置后的网页进行下一网页场景的识别,从而进一步避免了不同网页场景之间的干扰,进而进一步提高了识别结果的准确性等;上述可选方式所具有的其它效果将在下文中结合具体实施例加以说明。附图说明...

【技术保护点】
1.一种网页场景识别方法,其特征在于,包括:/n根据不同网页场景下的网页元素特征构建特征库;/n针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素;/n针对任一网页元素,分别从所述网页中获取所述网页元素在所述网页场景下的各特征的特征信息,并通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景;其中,所述对应特征信息为对所述特征库中所述网页场景下的特征进行条件配置后的特征信息。/n

【技术特征摘要】
1.一种网页场景识别方法,其特征在于,包括:
根据不同网页场景下的网页元素特征构建特征库;
针对待识别的网页场景,当待处理的网页打开后处于运行状态时,获取其中的网页元素;
针对任一网页元素,分别从所述网页中获取所述网页元素在所述网页场景下的各特征的特征信息,并通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景;其中,所述对应特征信息为对所述特征库中所述网页场景下的特征进行条件配置后的特征信息。


2.根据权利要求1所述的方法,其特征在于,
所述特征库中包含适用于各网页场景的通用特征以及适用于特定网页场景的专用特征;不同类别的特征分别按照预定的特征数据格式进行存储。


3.根据权利要求1所述的方法,其特征在于,
所述通过将获取到的各特征信息与所述特征库中的对应特征信息进行比较,确定出所述网页元素是否符合所述网页场景包括:
通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度;
若所述置信度大于预先设定的阈值,则确定所述网页元素符合所述网页场景,否则,确定所述网页元素不符合所述网页场景。


4.根据权利要求3所述的方法,其特征在于,
该方法进一步包括:分别为所述特征库中的各特征设置角色、分组及权重;
所述通过将获取到的各特征信息与所述对应特征信息进行比较,确定出所述网页元素的置信度包括:确定获取到的各特征信息与所述对应特征信息是否相匹配,根据确定结果以及各特征的角色、分组及权重信息,按照预定规则计算出所述网页元素的置信度。


5.根据权利要求1所述的方法,其特征在于,
所述网页场景包括:静态类网页场景以及动态类网页场景;
若所述待识别的网页场景为动态类网页场景,则该方法进一步包括:针对符合所述网页场景的网页元素,监听针对所述网页元素的交互操作,并确定所述交互操作所带来的页面变动是否符合预期。


6.根据权利要求5所述的方法,其特征在于,
该方法进一步包括:获取网页场景识别请求,若所述网页场景识别请求中包含多于一个网页场景,则确定各网页场景的识别顺序,并按照所述识别顺序,依次将各网页场景作为所述待识别的网页场景进行处理。


7.根据权利要求6所述的方法,其特征在于,
该方法进一步包括:当任一网页场景识别完成后,若进行了页面变动,则将所述网页恢复为页面变动之前的状态,并基于恢复后的网页进行下一网页场景的识别。


8.一种网页场景识别装置,其特征在于,包括:预处理单元以及识别单元;
所述预处理单元,用于根据不同网页场景下的网页元素特征构建特征库;
所述识别单元,用于针...

【专利技术属性】
技术研发人员:刘浪宇
申请(专利权)人:百度时代网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1