网页的测试方法、装置、电子设备和介质制造方法及图纸

技术编号:34052777 阅读:53 留言:0更新日期:2022-07-06 16:14
本公开提供了一种建立用于测试网页的样本库的方法、网页的测试方法、装置、电子设备和介质,涉及计算机技术领域,尤其涉及网页监控技术领域。实现方案为:获取多个参考网页分别对应的网页数据;提取该参考网页的框架特征以及搜索结果特征;将具有相同框架特征的参考网页划分为同一个类别,以获得至少一个类别;将每一个类别对应的相同框架特征作为样本框架特征;基于该类别中的每一个参考网页的搜索结果特征,确定样本搜索结果特征;基于样本框架特征和样本搜索结果特征,得到该类别对应的样本特征;基于至少一个类别中的每一个类别对应的样本特征,确定样本库。确定样本库。确定样本库。

Test methods, devices, electronic equipment and media of web pages

【技术实现步骤摘要】
网页的测试方法、装置、电子设备和介质


[0001]本公开涉及计算机
,尤其涉及网页监控
,具体涉及一种建立用于测试网页的样本库的方法、网页的测试方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着通信、互联网的发展,网页内容日趋丰富,由原来的文字逐步发展到图片、视频等,越来越丰富的网页内容导致搜索引擎的结果页的展现样式也越来越多,在搜索引擎效果不断迭代过程中,如何有效地监视网页的展现效果显得尤为重要。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种建立用于测试网页的样本库的方法、网页的测试方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供了一种建立用于测试网页的样本库的方法,包括:获取多个参考网本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种建立用于测试网页的样本库的方法,包括:获取多个参考网页分别对应的网页数据;针对所述多个参考网页中的每一个参考网页,识别该参考网页对应的网页数据中的搜索结果数据,并将该网页数据中除所述搜索结果数据之外的数据作为框架数据;基于该参考网页对应的框架数据,提取该参考网页的框架特征;基于该参考网页对应的搜索结果数据,提取该参考网页的搜索结果特征;将所述多个参考网页中具有相同框架特征的一个或多个参考网页划分为同一个类别,以获得至少一个类别;针对所述至少一个类别中的每一个类别,将该类别对应的相同框架特征作为该类别对应的样本框架特征;基于该类别中的每一个参考网页的搜索结果特征,确定该类别对应的样本搜索结果特征;基于所述样本框架特征和所述样本搜索结果特征,得到该类别对应的样本特征;以及基于所述至少一个类别中的每一个类别对应的样本特征,确定样本库。2.根据权利要求1所述的方法,其中,针对所述多个参考网页中的每一个参考网页,基于该参考网页对应的框架数据,提取该参考网页的框架特征包括:针对所述多个参考网页中的每一个参考网页,提取该参考网页对应的框架数据中的叶子节点数据作为该参考网页的框架特征,其中,所述叶子节点数据包括表征叶子节点的属性的属性数据和表征叶子节点在该参考网页对应的dom树结构中的位置的路径数据;并且其中,所述基于该参考网页对应的搜索结果数据,提取该参考网页的搜索结果特征包括:提取该参考网页对应的搜索结果数据中的叶子节点数据作为该参考网页的搜索结果特征。3.根据权利要求2所述的方法,还包括:针对所述多个参考网页中的每一个参考网页,确定在所述dom树结构中与该参考网页对应的搜索结果数据直接连接的至少一个父节点;针对所述至少一个父节点中的每一个父节点,确定与该父节点直接连接的至少一条搜索结果;以及确定该参考网页的搜索结果特征中与所述至少一条搜索结果中的每一条搜索结果对应的子结果特征。4.根据权利要求3所述的方法,其中,针对所述至少一个类别中的每一个类别,基于该类别中的每一个参考网页的搜索结果特征,确定该类别对应的样本搜索结果特征包括:针对每一类别的参考网页对应的至少一个父节点中的每一个父节点,将该类别中的每一个参考网页中与该父节点直接连接的至少一条搜索结果对应的子结果特征进行聚合,以得到该父节点对应的搜索结果特征;以及基于所述至少一个父节点中的每一个父节点对应的搜索结果特征,确定该类别对应的样本搜索结果特征。5.根据权利要求1

4中任一项所述的方法,还包括:
针对所述多个参考网页中的每一个参考网页,响应于该参考网页对应的搜索结果数据中包括由直接连接到同一个父节点的类型为文本的多个叶子节点组成的文本数据并且所述文本数据由于预设样式而被拆分为所述多个叶子节点,对所述多个叶子节点进行拼接,并对拼接得到的一个叶子节点进行所述预设样式的标注。6.根据权利要求2

5中任一项所述的方法,其中,类型为文本的叶子节点对应的属性数据包括该叶子节点的类型、标签以及取值,并且,类型为非文本的叶子节点对应的属性数据包括该叶子节点的类型和标签。7.一种网页的测试方法,包括:获取样本库和待测试网页对应的待测试网页数据;识别所述待测试网页数据中的搜索结果数据,并将所述待测试网页数据中除所述搜索结果数据之外的数据作为框架数据;将所述待测试网页对应的框架数据与所述样本库中每一个样本特征中的样本框架特征进行比对;响应于所述待测试网页对应的框架数据符合所述样本库中的一个样本特征中的样本框架特征,将所述待测试网页对应的搜索结果数据与该样本特征中的样本搜索结果特征进行比对;以及响应于所述待测试网页对应的搜索结果数据符合所述样本搜索结果特征中的任一子结果特征,确定所述待测试网页通过测试,其中,所述样本库是根据权利要求1

6中任一项所述的方法得到的。8.根据权利要求7所述的方法,还包括:响应于所述待测试网页未通过所述测试,提取所述待测试网页的框架特征以及搜索结果特征;基于所述待测试网页的框架特征以及搜索结果特征,更新所述样本库;以及基于更新的样本库对所述待测试网页进行测试。9.一种建立用于测试网页的样本库的装置,包括:第一获取模块,被配置为获取多个参考网页分别对应的网页数据;第一识别模块,被配置为针对所述多个参考网页中的每一个参考网页,识别该参考网页对应的网页数据中的搜索结果数据,并将该网页数据中除所述搜索结果数据之外的数据作为框架数据;第一提取模块,被配置为基于该参考网页对应的框架数据,提取该参考网页的框架特征;第二提取模块,被配置为基于该参考网页对应的搜索结果数据,提取该参考网页的搜索结果特征;划分模块,被配...

【专利技术属性】
技术研发人员:周阳田丽丽代闯仁马闻珏白路李思
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1