System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网页数据采集方法、装置、终端及存储介质制造方法及图纸_技高网

网页数据采集方法、装置、终端及存储介质制造方法及图纸

技术编号:40051145 阅读:4 留言:0更新日期:2024-01-16 21:13
本发明专利技术实施例公开了一种网页数据采集方法、装置、终端及存储介质。该方案可以在目标网站中提取目标HTML文档,对目标HTML文档进行预处理,将预处理后的HTML文档输入至预训练的自然语言处理模型,以输出网页数据,根据网页数据的数据类型对网页数据进行格式转换。本申请实施例所提供的方案可以利用大语言模型GPT的能力,提取HTML中的各种元素,并且无需在HTML结构变更时调整配置,因此可以大大简化数据获取工作,提高效率和稳定性。

【技术实现步骤摘要】

本专利技术涉及数据处理,具体涉及一种网页数据采集方法、装置、终端及存储介质


技术介绍

1、随着互联网的迅速发展,各种网络数据呈现爆炸式增长,如何快速地从海量的网络信息中获取网页数据成为了一大难题。在网络数据抓取或者网页内容解析过程中,目前广泛应用的技术包括xpath、css选择器、标记截取、正则匹配等,它们是对html元素进行提取的主要手段。xpath通过定义路径表达式,可以精确地定位到文档中的各级元素。css选择器的工作原理是通过元素的标签名、类名、id,甚至可以通过父子关系、兄弟关系等进行筛选。标记截取根据html的标记特性,直接对html代码进行字符串操作,如搜索、截取等,从而获得所需信息。正则匹配可以用来匹配、替换复杂的字符串模式。在html元素提取中,通过定义特定的正则表达式,可以精确地匹配到所需的内容

2、在实际使用过程中,申请人发现:尽管xpath、css选择器、标记截取、以及正则匹配等方法在html元素提取中具备各自的优势,但它们都存在着一个突出的共性问题,即对html结构的过度依赖。在互联网的环境下,网页内容及其结构都是动态和易变的。随着网站的更新或改版,html结构可能会发生显著的变动。例如,网页的布局可能会被调整,某些html元素可能被添加、删除或移动,甚至元素的标签名、类名、id等属性可能会发生变化。这些变动可能导致原有的基于xpath、css选择器、标记截取或正则匹配的提取规则无法正确地定位和提取到所需的html元素。


技术实现思路

1、本专利技术实施例提供一种网页数据采集方法、装置、终端及存储介质,可以利用大语言模型gpt的能力,提取html中的各种元素,并且无需在html结构变更时调整配置,因此可以大大简化数据获取工作,提高效率和稳定性。

2、本专利技术实施例提供一种网页数据采集方法,包括:

3、在目标网站中提取目标html文档;

4、对所述目标html文档进行预处理;

5、将预处理后的html文档输入至预训练的自然语言处理模型,以输出网页数据;

6、根据所述网页数据的数据类型对所述网页数据进行格式转换。

7、本专利技术实施例还提供一种网页数据采集装置,包括:

8、提取单元,用于在目标网站中提取目标html文档;

9、处理单元,用于对所述目标html文档进行预处理;

10、输出单元,用于将预处理后的html文档输入至预训练的自然语言处理模型,以输出网页数据;

11、转换单元,用于根据所述网页数据的数据类型对所述网页数据进行格式转换。

12、本专利技术实施例还提供一种终端,所述终端包括:存储器、处理器,其中,所述存储器上存储有应用程序处理程序,所述应用程序处理程序被所述处理器执行时实现本专利技术实施例所提供的任一项所述的网页数据采集方法的步骤。

13、本专利技术实施例还提供一种计算机可读的存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本专利技术实施例所提供的任一网页数据采集方法。

14、本专利技术实施例提供的网页数据采集方法,可以在目标网站中提取目标html文档,对目标html文档进行预处理,将预处理后的html文档输入至预训练的自然语言处理模型,以输出网页数据,根据网页数据的数据类型对网页数据进行格式转换。本申请实施例所提供的方案可以利用大语言模型gpt的能力,提取html中的各种元素,并且无需在html结构变更时调整配置,因此可以大大简化数据获取工作,提高效率和稳定性。

本文档来自技高网...

【技术保护点】

1.一种网页数据采集方法,其特征在于,包括:

2.如权利要求1所述的网页数据采集方法,其特征在于,对所述目标HTML文档进行预处理,包括:

3.如权利要求2所述的网页数据采集方法,其特征在于,对所述目标HTML文档进行预处理,还包括:

4.如权利要求1所述的网页数据采集方法,其特征在于,所述自然语言处理模型的预训练过程,包括:

5.如权利要求1所述的网页数据采集方法,其特征在于,根据所述网页数据的数据类型对所述网页数据进行格式转换,包括:

6.如权利要求1所述的网页数据采集方法,其特征在于,在目标网站中提取目标HTML文档,包括:

7.如权利要求6所述的网页数据采集方法,其特征在于,所述设定采集频率的步骤包括:

8.一种网页数据采集装置,其特征在于,包括:

9.一种终端,其特征在于,所述终端包括:存储器、处理器,其中,所述存储器上存储有应用程序处理程序,所述应用程序处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的网页数据采集方法的步骤。

10.一种计算机可读的存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的网页数据采集方法。

...

【技术特征摘要】

1.一种网页数据采集方法,其特征在于,包括:

2.如权利要求1所述的网页数据采集方法,其特征在于,对所述目标html文档进行预处理,包括:

3.如权利要求2所述的网页数据采集方法,其特征在于,对所述目标html文档进行预处理,还包括:

4.如权利要求1所述的网页数据采集方法,其特征在于,所述自然语言处理模型的预训练过程,包括:

5.如权利要求1所述的网页数据采集方法,其特征在于,根据所述网页数据的数据类型对所述网页数据进行格式转换,包括:

6.如权利要求1所述的网页数据采集方法,其特征在于,在目...

【专利技术属性】
技术研发人员:宋登高
申请(专利权)人:爱集微咨询厦门有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1