网页数据解析方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号:44524927 阅读:22 留言:0更新日期:2025-03-07 13:16
本申请涉及一种网页数据解析方法、装置、计算机设备和可读存储介质。所述方法包括:获取待处理的目标网页以及与目标网页匹配的第一解析规则;确定目标网页的原始采集数据,按照第一解析规则对原始采集数据进行解析,得到解析结果;若解析结果中存在异常项,且异常项的数量大于异常阈值,则调用大语言模型对目标网页的网页结构进行分析,确定目标网页的网页结构变化;根据网页结构变化对第一解析规则进行更新,得到第二解析规则;基于第二解析规则对原始采集数据进行解析,得到目标解析数据。采用本方法能够能自适应网页结构变化的实现网页数据解析,确保数据采集的可靠性。

【技术实现步骤摘要】

本申请涉及计算机,特别是涉及一种网页数据解析方法、装置、计算机设备和可读存储介质


技术介绍

1、随着互联网信息量的爆炸式增长,越来越多的人开始关注如何在大数据量的网络中找到自己所需的信息,对于软件行业专业人员也越来越倾向于在大数据量中做自动化的处理,以提高信息检索效率并达到针对性推荐信息的目的。网页信息智能采集作为网页信息获取的主要途径也为更多人所熟知。

2、然而,传统网页的网页信息智能采集在面对网页结构变更时常常失效,需要频繁的人工干预和调整。现有技术中缺乏一种能自适应网页结构变化的网页数据解析方法。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够自适应网页结构变化的网页数据解析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种网页数据解析方法,包括:

3、获取待处理的目标网页以及与所述目标网页匹配的第一解析规则;

4、确定所述目标网页的原始采集数据,按照所述第一解析规则对所述原始采集数据进行解析,得本文档来自技高网...

【技术保护点】

1.一种网页数据解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述调用大语言模型对所述目标网页的网页结构进行分析,确定所述目标网页的网页结构变化,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取待处理的目标网页以及与所述目标网页匹配的第一解析规则,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述网页结构变化对所述第一解析规则进行更新,得到第二解析规则,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至权利要求5任意一项所述的方法,其特...

【技术特征摘要】

1.一种网页数据解析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述调用大语言模型对所述目标网页的网页结构进行分析,确定所述目标网页的网页结构变化,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取待处理的目标网页以及与所述目标网页匹配的第一解析规则,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据所述网页结构变化对所述第一解析规则进行更新,得到第二解析规则,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至权利要求5任意一项所述的方法,其特征在于,所述原始采集数据为html...

【专利技术属性】
技术研发人员:刘贝
申请(专利权)人:杭州乒乓智能技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1