网页解析方法、系统及计算机可读存储介质技术方案

技术编号:27975915 阅读:25 留言:0更新日期:2021-04-06 14:10
本发明专利技术公开了一种网页解析方法、系统及计算机可读存储介质,所述方法包括:获取网站列表页的所有超链接标签及其对应的父标签路径;根据每个超链接标签对应的父标签路径对所有超链接标签进行分组,以得到多个网页区块,其中,每个网页区块包括一个或多个超链接标签;根据每个网页区块的布局位置从多个网页区块中确定目标列表对应的网页区块。本发明专利技术能够在网站的网页结构或者UI界面的显示区域发生改变时,通过相应的识别规则自动从变化后的列表页中识别得到目标列表对应的网页区块,从而确定指向内容页的超链接标签,避免了人工设置列表页的解析规则,降低了维护成本。

【技术实现步骤摘要】
网页解析方法、系统及计算机可读存储介质
本专利技术涉及数据采集领域,尤其涉及一种网页解析方法、系统及计算机可读存储介质。
技术介绍
随着网络技术的迅速发展,互联网成为大量数据信息的载体,为了有效地提取并利用这些信息,通常采用网络爬虫的方式进行数据采集。例如,政府网站将会公开各种各样的政府公开信息,通过网络爬虫对这些网站进行数据爬取,即可获得网站的内容信息。然而现有的政府网站是由各级政府的各类部门进行建立和维护管理,各个政府网站的网页结构各异,同时,其他内容类网站也是网络爬虫爬取数据的主要对象,且每个内容类网站的网页结构也互不相同。目前,常用的网页结构解析方式是通过Xpath或正则表达式进行数据爬取,或者基于网页模板和规则进行数据提取。对于Xpath或正则表达式进行数据爬取的方式,在网页结构发生变化时,将会导致数据爬取失败,从而需要根据网页结构实时调整爬取规则,需要消耗大量的维护成本。对于基于网页模板进行数据提取的方式,由于每个网站需要对应一个模板,在需要爬取的网站数量较多时,需求的模板数量过大,导致模板提取的方式扩展性较低。并且在网站发本文档来自技高网...

【技术保护点】
1.一种网页解析方法,其特征在于,包括以下步骤:/n获取网站列表页的所有超链接标签及其对应的父标签路径;/n根据每个超链接标签对应的父标签路径对所有超链接标签进行分组,以得到多个网页区块,其中,每个网页区块包括一个或多个超链接标签;/n根据每个网页区块的布局位置从多个网页区块中确定目标列表对应的网页区块。/n

【技术特征摘要】
1.一种网页解析方法,其特征在于,包括以下步骤:
获取网站列表页的所有超链接标签及其对应的父标签路径;
根据每个超链接标签对应的父标签路径对所有超链接标签进行分组,以得到多个网页区块,其中,每个网页区块包括一个或多个超链接标签;
根据每个网页区块的布局位置从多个网页区块中确定目标列表对应的网页区块。


2.如权利要求1所述的网页解析方法,其特征在于,所述根据每个网页区块的布局位置从多个网页区块中确定目标列表对应的网页区块的步骤包括:
对每个网页区块进行定位,以确定每个网页区块的显示位置;
根据每个网页区块的显示位置从多个网页区块中确定目标列表对应的网页区块。


3.如权利要求2所述的网页解析方法,其特征在于,所述对每个网页区块进行定位,以确定每个网页区块的显示位置的步骤包括:
对每个超链接标签分别进行标签定位,以得到每个超链接标签的显示区域;
根据每个超链接标签的显示区域确定每个超链接标签对应的位置坐标;
根据每个网页区块中的超链接标签对应的位置坐标计算得到每个网页区块对应的平均坐标位置。


4.如权利要求3所述的网页解析方法,其特征在于,所述目标列表为内容页列表,所述根据每个网页区块的显示位置从多个网页区块中确定目标列表对应的网页区块的步骤包括:
根据每个网页区块的平均坐标位置确定每个网页区块与网页垂直中线的坐标距离;
根据每个网页区块与网页垂直中线的坐标距离,将与网页垂直中线的距离最短的网页区块确定为内容页列表对应的网页区块。


5.如权利要求2~4中任一项所述的网页解析方法,其特征在于,所述对每个网页区块进行定位,以确定每个网页区块的显示位置的步骤之...

【专利技术属性】
技术研发人员:张新亮
申请(专利权)人:深圳TCL新技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1