【技术实现步骤摘要】
本专利技术涉及数据处理,具体涉及一种网页数据采集方法、装置、终端及存储介质。
技术介绍
1、随着互联网的迅速发展,各种网络数据呈现爆炸式增长,如何快速地从海量的网络信息中获取网页数据成为了一大难题。在网络数据抓取或者网页内容解析过程中,目前广泛应用的技术包括xpath、css选择器、标记截取、正则匹配等,它们是对html元素进行提取的主要手段。xpath通过定义路径表达式,可以精确地定位到文档中的各级元素。css选择器的工作原理是通过元素的标签名、类名、id,甚至可以通过父子关系、兄弟关系等进行筛选。标记截取根据html的标记特性,直接对html代码进行字符串操作,如搜索、截取等,从而获得所需信息。正则匹配可以用来匹配、替换复杂的字符串模式。在html元素提取中,通过定义特定的正则表达式,可以精确地匹配到所需的内容
2、在实际使用过程中,申请人发现:尽管xpath、css选择器、标记截取、以及正则匹配等方法在html元素提取中具备各自的优势,但它们都存在着一个突出的共性问题,即对html结构的过度依赖。在互联网的环境下,网页
...【技术保护点】
1.一种网页数据采集方法,其特征在于,包括:
2.如权利要求1所述的网页数据采集方法,其特征在于,对所述目标HTML文档进行预处理,包括:
3.如权利要求2所述的网页数据采集方法,其特征在于,对所述目标HTML文档进行预处理,还包括:
4.如权利要求1所述的网页数据采集方法,其特征在于,所述自然语言处理模型的预训练过程,包括:
5.如权利要求1所述的网页数据采集方法,其特征在于,根据所述网页数据的数据类型对所述网页数据进行格式转换,包括:
6.如权利要求1所述的网页数据采集方法,其特征在于,在目标网站中提取目
...【技术特征摘要】
1.一种网页数据采集方法,其特征在于,包括:
2.如权利要求1所述的网页数据采集方法,其特征在于,对所述目标html文档进行预处理,包括:
3.如权利要求2所述的网页数据采集方法,其特征在于,对所述目标html文档进行预处理,还包括:
4.如权利要求1所述的网页数据采集方法,其特征在于,所述自然语言处理模型的预训练过程,包括:
5.如权利要求1所述的网页数据采集方法,其特征在于,根据所述网页数据的数据类型对所述网页数据进行格式转换,包括:
6.如权利要求1所述的网页数据采集方法,其特征在于,在目...
【专利技术属性】
技术研发人员:宋登高,
申请(专利权)人:爱集微咨询厦门有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。