网页数据采集方法、装置、终端及存储介质制造方法及图纸

技术编号：40051145 阅读：24 留言：0更新日期：2024-01-16 21:13

本发明专利技术实施例公开了一种网页数据采集方法、装置、终端及存储介质。该方案可以在目标网站中提取目标HTML文档，对目标HTML文档进行预处理，将预处理后的HTML文档输入至预训练的自然语言处理模型，以输出网页数据，根据网页数据的数据类型对网页数据进行格式转换。本申请实施例所提供的方案可以利用大语言模型GPT的能力，提取HTML中的各种元素，并且无需在HTML结构变更时调整配置，因此可以大大简化数据获取工作，提高效率和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体涉及一种网页数据采集方法、装置、终端及存储介质。

技术介绍

1、随着互联网的迅速发展，各种网络数据呈现爆炸式增长，如何快速地从海量的网络信息中获取网页数据成为了一大难题。在网络数据抓取或者网页内容解析过程中，目前广泛应用的技术包括xpath、css选择器、标记截取、正则匹配等，它们是对html元素进行提取的主要手段。xpath通过定义路径表达式，可以精确地定位到文档中的各级元素。css选择器的工作原理是通过元素的标签名、类名、id，甚至可以通过父子关系、兄弟关系等进行筛选。标记截取根据html的标记特性，直接对html代码进行字符串操作，如搜索、截取等，从而获得所需信息。正则匹配可以用来匹配、替换复杂的字符串模式。在html元素提取中，通过定义特定的正则表达式，可以精确地匹配到所需的内容

2、在实际使用过程中，申请人发现：尽管xpath、css选择器、标记截取、以及正则匹配等方法在html元素提取中具备各自的优势，但它们都存在着一个突出的共性问题，即对html结构的过度依赖。在互联网的环境下，网页...

【技术保护点】

1.一种网页数据采集方法，其特征在于，包括：

2.如权利要求1所述的网页数据采集方法，其特征在于，对所述目标HTML文档进行预处理，包括：

3.如权利要求2所述的网页数据采集方法，其特征在于，对所述目标HTML文档进行预处理，还包括：

4.如权利要求1所述的网页数据采集方法，其特征在于，所述自然语言处理模型的预训练过程，包括：

5.如权利要求1所述的网页数据采集方法，其特征在于，根据所述网页数据的数据类型对所述网页数据进行格式转换，包括：

6.如权利要求1所述的网页数据采集方法，其特征在于，在目标网站中提取目标HTML文档，包括...

【技术特征摘要】

1.一种网页数据采集方法，其特征在于，包括：

2.如权利要求1所述的网页数据采集方法，其特征在于，对所述目标html文档进行预处理，包括：

3.如权利要求2所述的网页数据采集方法，其特征在于，对所述目标html文档进行预处理，还包括：

4.如权利要求1所述的网页数据采集方法，其特征在于，所述自然语言处理模型的预训练过程，包括：

5.如权利要求1所述的网页数据采集方法，其特征在于，根据所述网页数据的数据类型对所述网页数据进行格式转换，包括：

6.如权利要求1所述的网页数据采集方法，其特征在于，在目...

【专利技术属性】
技术研发人员：宋登高，
申请(专利权)人：爱集微咨询厦门有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人