基于html标签匹配的网页数据提取方法技术

技术编号：24498198 阅读：103 留言：0更新日期：2020-06-13 03:54

本发明专利技术是一种基于html标签匹配的网页数据提取方法，包括步骤：步骤1、预处理html代码，去除代码中的干扰因素；步骤2、遍历目标页面的html标签，并对其进行归类；步骤3、将目标数据与html标签进行匹配；步骤4、根据匹配结果，提取所有目标数据项。该方法可根据用户所需数据来进行提取，而不仅仅是局限于正文，标题等，且准确性高，速度快。

Web page data extraction method based on HTML tag matching

全部详细技术资料下载

【技术实现步骤摘要】
基于html标签匹配的网页数据提取方法
本专利技术涉及网页数据处理领域，特别涉及一种网页数据提取方法。
技术介绍
目前有多种网页数据提取技术。较为常用的一种是使用基于Dom树的网页数据提取技术，首先利用开源包处理HTML，更正其中错误或者不规范的地方，根据处理后的较为规范的HTML建立Dom树，然后递归遍历Dom树，在Dom解析树上应用算法来抽取网页数据。这种方法实现简单，准确性较高，但需要HTML结构良好，且树的建立和遍历时空复杂度高。另外一种基于视觉的网页数据提取算法中，充分利用网页的框架信息和视觉信息，从用户的观察角度来分析网页的结构，模拟人的眼睛识别语义内容的过程并结合Dom树进行分析。这种方法对于结构较为复杂，网页数据内容分散的网页可以提高提取的准确性，但算法需要多次迭代，且依赖于浏览器的内核代码，在通用性和可扩展性方面稍有不足。综上，现有技术中的网页数据提取方法，容易受到HTML结构好坏的影响，一些复杂算法在提取准确性提高的同时牺牲了一定的提取效率，无法兼顾提取准确性和提取效率。专...

【技术保护点】
1.基于html标签匹配的网页数据提取方法，其特征在于，步骤包括：/n步骤1、预处理html代码，去除代码中的干扰因素；/n步骤2、遍历目标页面的html标签，并对其进行归类；/n步骤3、将目标数据与html标签进行匹配；/n步骤4、根据匹配结果，提取所有目标数据项。/n

【技术特征摘要】
1.基于html标签匹配的网页数据提取方法，其特征在于，步骤包括：
步骤1、预处理html代码，去除代码中的干扰因素；
步骤2、遍历目标页面的html标签，并对其进行归类；
步骤3、将目标数据与html标签进行匹配；
步骤4、根据匹配结果，提取所有目标数据项。

2.根据权利要求1所述的基于html标签匹配的网页数据提取方法，其特征在于，步骤1中去除代码中的干扰因素包括去除用来注释的<!-->标签，去除定义客户端脚本的<script>...

【专利技术属性】
技术研发人员：张宇峰，李熠，曾豪，
申请(专利权)人：湘潭大学，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人