网页结构优化方法、装置、设备和存储介质制造方法及图纸

技术编号:24091965 阅读:58 留言:0更新日期:2020-05-09 08:28
本申请实施例公开了一种网页结构优化方法、装置、设备和存储介质,涉及网页处理技术领域。具体实现方案为:响应用户的网页触发行为,确定用户访问的目标网页;确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。本申请实施例通过对候选网页结构进行自动化离线分析,预先确定网页中元素的目标结构信息,实现了在线的网页结构优化,避免了网页结构优化中的人工参与,降低网页结构优化成本,提高网页结构优化效率和准确率。

Optimization methods, devices, devices and storage media of web page structure

【技术实现步骤摘要】
网页结构优化方法、装置、设备和存储介质
本申请实施例涉及计算机
,尤其涉及网页处理
,具体涉及一种网页结构优化方法、装置、设备和存储介质。
技术介绍
在当今互联网浏览环境下,广大互联网用户浏览着设计良莠不齐、充斥不良内容的网站。目前依赖于站长将网页渲染成统一结构,由于站点数量十分庞大,基于人工的处理方式不仅效率低、时效性差,而且对人工的开发能力要求较高,增加投入成本,降低准确性,难以实现在线的网页结构优化。
技术实现思路
本申请实施例提供了一种网页结构优化方法、装置、设备和存储介质,能够实现在线的网页结构优化,降低网页优化成本,提高网页优化效率和准确率。第一方面,本申请实施例提供了一种网页结构优化方法,包括:响应用户的网页触发行为,确定用户访问的目标网页;确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。上述申请中的一个实施例具有如下优点或有益效果:通过对候选网页结构进行自动化离线分析,预先确定网页中元素的目标结构信息,实现了在线的网页结构优化,避免了网页结构优化中的人工参与,降低网页结构优化成本,提高网页结构优化效率和准确率。可选的,所述确定所述目标网页中元素的原始结构信息和目标结构信息,包括:若检测到所述目标网页为所述候选网页,则根据所述候选网页中元素与原始结构信息之间的映射关系,确定所述目标网页中元素的原始结构信息;根据元素类型与目标结构信息之间的映射关系,确定所述目标网页中元素的目标结构信息。上述申请中的一个实施例具有如下优点或有益效果:基于预先确定的候选网页中元素的原始结构信息,以及各类元素的目标结构信息,实现在线实时提取结构信息,提高结构信息的在线提取效率和准确性。可选的,通过对候选网页中元素的结构分析得到所述目标结构信息,包括:识别所述候选网页中网页数据所属的元素,并提取元素的原始结构信息,以得到所述候选网页中元素与原始结构信息之间的映射关系;根据所述候选网页所属站点中同类元素与原始结构信息之间的映射关系,确定所述站点内该类元素与目标结构信息之间的映射关系。上述申请中的一个实施例具有如下优点或有益效果:通过对候选网页结构进行自动化离线分析,预先确定候选网页中元素的原始结构信息,以及各类元素的目标结构信息,为在线实时的信息提取提供依据,提高了在线处理效率。可选的,所述识别所述候选网页中网页数据所属的元素,包括:驱动浏览器,得到所述候选网页的网页数据;根据所述网页数据的特征,识别所述网页数据所属的元素。上述申请中的一个实施例具有如下优点或有益效果:通过驱动浏览器,模拟了用户访问的真实场景,提供了与用户实际访问环境一致的分析环境。进而在一致的分析环境中,通过对网页数据特征的计算,无需人工标注自动识别网页数据所属的元素,提高网页结构分析的效率和准确性。可选的,所述驱动浏览器,得到所述候选网页的网页数据,包括:驱动浏览器,确定所述候选网页的文档对象模型;通过所述浏览器调用离线分析模块,确定所述文档对象模型中节点关联的网页数据。上述申请中的一个实施例具有如下优点或有益效果:通过对于浏览器的驱动和离线分析模块的调用,模拟了用户的真实访问操作,遍历得到了网页的文档对象模型中各节点关联的网页数据,供特征计算和元素识别使用。可选的,在所述根据所述网页数据的特征,识别所述网页数据所属的元素之前,还包括:根据所述候选网页所属站点,确定所述网页数据的特征。上述申请中的一个实施例具有如下优点或有益效果:鉴于站点类型的不同导致网页数据的不同,因此可以预先为不同站点设置不同的元素识别策略,从而根据候选网页所属站点确定网页数据的特征,以识别网页数据所属的元素。可选的,所述根据所述候选网页所属站点中同类元素与原始结构信息之间的映射关系,确定所述站点内该类元素与目标结构信息之间的映射关系,包括:在所述候选网页所属站点中,确定相同原始结构信息在同类元素中所占的比例;根据相同原始结构信息在同类元素中所占的比例,选择所述站点内该类元素的目标结构信息。上述申请中的一个实施例具有如下优点或有益效果:在同一站点内,可以对同类元素的原始结构信息进行投票,从而选择多数采用的原始结构信息作为该类元素的目标结构信息,以便统一该站点内同类元素的数据结构。第二方面,本申请实施例提供了一种网页结构优化装置,包括:访问网页确定模块,用于响应用户的网页触发行为,确定用户访问的目标网页;结构信息提取模块,用于确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;网页结构转化模块,用于若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所述的网页结构优化方法。第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意实施例所述的网页结构优化方法。上述申请中的一个实施例具有如下优点或有益效果:当用户在线访问网页时,根据用户的网页触发行为确定用户访问的目标网页,基于对候选网页中元素的结构分析得到的结构信息,确定目标网页中元素的原始结构信息和目标结构信息,从而在原始结构信息与目标结构信息不一致时,将目标网页中元素的结构转化为目标结构信息中的结构,并向用户展示结构转化后的目标网页。本申请实施例通过对候选网页结构进行自动化离线分析,预先确定网页中元素的目标结构信息,实现了在线的网页结构优化,避免了网页结构优化中的人工参与,降低网页结构优化成本,提高网页结构优化效率和准确率。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的一种网页结构优化方法的流程图;图2是根据本申请第二实施例的一种网页结构优化方法的流程图;图3是根据本申请第三实施例的一种网页结构优化方法的流程图;图4是根据本申请第三实施例的特征分析的示例图;图5是根据本申请第三实施例的网页结构优化系统的示例图;图6是根据本申请第四实施例的一种网页结构优化装置的结构示意图;图7是用来实现本申请实施例的本文档来自技高网...

【技术保护点】
1.一种网页结构优化方法,其特征在于,包括:/n响应用户的网页触发行为,确定用户访问的目标网页;/n确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;/n若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。/n

【技术特征摘要】
1.一种网页结构优化方法,其特征在于,包括:
响应用户的网页触发行为,确定用户访问的目标网页;
确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;
若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。


2.根据权利要求1所述的方法,其特征在于,所述确定所述目标网页中元素的原始结构信息和目标结构信息,包括:
若检测到所述目标网页为所述候选网页,则根据所述候选网页中元素与原始结构信息之间的映射关系,确定所述目标网页中元素的原始结构信息;
根据元素类型与目标结构信息之间的映射关系,确定所述目标网页中元素的目标结构信息。


3.根据权利要求1所述的方法,其特征在于,通过对候选网页中元素的结构分析得到所述目标结构信息,包括:
识别所述候选网页中网页数据所属的元素,并提取元素的原始结构信息,以得到所述候选网页中元素与原始结构信息之间的映射关系;
根据所述候选网页所属站点中同类元素与原始结构信息之间的映射关系,确定所述站点内该类元素与目标结构信息之间的映射关系。


4.根据权利要求3所述的方法,其特征在于,所述识别所述候选网页中网页数据所属的元素,包括:
驱动浏览器,得到所述候选网页的网页数据;
根据所述网页数据的特征,识别所述网页数据所属的元素。


5.根据权利要求4所述的方法,其特征在于,所述驱动浏览器,得到所述候选网页的网页数据,包括:
驱动浏览器,确定所述候选网页的文档对象模型;
通过所述浏览器调用离线分析模块,确定...

【专利技术属性】
技术研发人员:蒋庆宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1