一种网站解析方法和装置制造方法及图纸

技术编号:34335725 阅读:30 留言:0更新日期:2022-07-31 02:56
本发明专利技术公开了一种网站解析方法和装置,其中方法包括:对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,根据所述主页面的页面标签集确定至少一个链接页面;获取至少一个链接页面的页面标签集,根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则;基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径;以及基于标签路径逐级生成每个链接页面的列表块结构,并根据每个链接页面的列表块结构生成所述目标网站的网页数据结构。目标网站的网页数据结构。目标网站的网页数据结构。

【技术实现步骤摘要】
一种网站解析方法和装置


[0001]本专利技术涉及信息处理
,尤其是涉及一种网站解析方法和装置、以及计算机可读存储介质、电子设备和计算机程序产品。

技术介绍

[0002]目前,在进行数据采集工作时,由于网站的网页层级结构不同,对每个网站都需要使用一系列预先设计的规则进行解析,例如,链接规则、标题规则及翻页规则。当网站数量较大时,开发人员需消耗较多精力和时间进行规则设计。
[0003]在这种情况下,存在对自动解析网站列表页的链接、标题及翻页链接和规则的需求。

技术实现思路

[0004]鉴于此,本专利技术提出了一种网站解析方法和装置、以及计算机可读存储介质、电子设备和计算机程序产品,旨在通过对页面的文档结构进行处理,从而实现对网站列表页中的链接、标题及翻页链接进行自动解析。本专利技术的技术方案能够提升数据的解析精度及采集效率,极大程度上减少人工花销时间。
[0005]根据本专利技术实施例的一个方面,提供一种网站解析方法,所述方法包括:
[0006]对目标网站的主页面的文档结构进行解析以获取所述主页面的页本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网站解析方法,其特征在于,所述方法包括:对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,根据所述主页面的页面标签集确定至少一个链接页面;获取至少一个链接页面的页面标签集,根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则;基于适用于所述目标网站的页面链接规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径;以及基于标签路径逐级生成每个链接页面的列表块结构,并根据每个链接页面的列表块结构生成所述目标网站的网页数据结构。2.根据权利要求1所述的方法,其特征在于,所述对目标网站的主页面的文档结构进行解析以获取所述主页面的页面标签集,包括:获取所述目标网站的主页面的网络地址;基于所述目标网站的主页面的网络地址,获取所述主页面的网页源代码;基于所述网页源代码构建所述主页面的文档结构,其中所述文档结构为文档对象模型DOM树;对所述目标网站的主页面的文档结构进行解析以获取所述主页面的所有标签,根据所有标签确定所述主页面的页面标签集。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述主页面的页面标签集确定至少一个链接页面,包括:根据预先获取的用于确定链接页面的锚点规则,在所述主页面的页面标签集中查询是否存在页面链接锚点;当查询到页面链接锚点时,基于所述页面链接锚点确定至少一个链接页面。4.根据权利要求3所述的方法,其特征在于,当查询不到页面链接锚点时,所述方法还包括:获取多种页面链接规则,其中基于对海量的页面链接锚点进行统计处理以确定多种页面链接规则;基于多种页面链接规则,确定所述主页面的至少一个链接页面,其中每个链接页面为能够访问的页面并且每个链接页面的哈希值与所述主页面的哈希值不相同。5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个链接页面的页面标签集和所述主页面的页面标签集,确定适用于所述目标网站的页面链接规则,包括:将所述至少一个链接页面的页面标签集分别与所述主页面的页面标签集进行差别比较,以确定不同的动态参数的数量;当动态参数的数量为1时,则确定所述动态参数为页面翻页参数;当动态参数的数量大于1时,获取所述主页面的动态参数和所述主页面下至少两个层级的链接页面的动态参数,对每个动态参数进行枚举校验,参数值发生变化的动态参数确定为页面翻页参数;基于所述页面翻页参数及所述页面翻页参数的值,确定适用于所述目标网站的页面链接规则。6.根据权利要求1所述的方法,其特征在于,所述基于适用于所述目标网站的页面链接
规则,获取所述目标网站的与主页面相关联的所有链接页面和每个链接页面的标签路径,包括:基于适用于所述目标网站的页面链接规则,确定所述目标网站的页面链接锚点;基于所述页面链接锚点进行逐级访问,以获取所述目标网站的与主页面相关联的所有链接页面;获取每个链接页面的网页源代码,基于网页源代码确定每个链接页...

【专利技术属性】
技术研发人员:薛秋雨柳超
申请(专利权)人:盐城金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1