【技术实现步骤摘要】
基于html标签匹配的网页数据提取方法
本专利技术涉及网页数据处理领域,特别涉及一种网页数据提取方法。
技术介绍
目前有多种网页数据提取技术。较为常用的一种是使用基于Dom树的网页数据提取技术,首先利用开源包处理HTML,更正其中错误或者不规范的地方,根据处理后的较为规范的HTML建立Dom树,然后递归遍历Dom树,在Dom解析树上应用算法来抽取网页数据。这种方法实现简单,准确性较高,但需要HTML结构良好,且树的建立和遍历时空复杂度高。另外一种基于视觉的网页数据提取算法中,充分利用网页的框架信息和视觉信息,从用户的观察角度来分析网页的结构,模拟人的眼睛识别语义内容的过程并结合Dom树进行分析。这种方法对于结构较为复杂,网页数据内容分散的网页可以提高提取的准确性,但算法需要多次迭代,且依赖于浏览器的内核代码,在通用性和可扩展性方面稍有不足。综上,现有技术中的网页数据提取方法,容易受到HTML结构好坏的影响,一些复杂算法在提取准确性提高的同时牺牲了一定的提取效率,无法兼顾提取准确性和提取效率。专 ...
【技术保护点】
1.基于html标签匹配的网页数据提取方法,其特征在于,步骤包括:/n步骤1、预处理html代码,去除代码中的干扰因素;/n步骤2、遍历目标页面的html标签,并对其进行归类;/n步骤3、将目标数据与html标签进行匹配;/n步骤4、根据匹配结果,提取所有目标数据项。/n
【技术特征摘要】
1.基于html标签匹配的网页数据提取方法,其特征在于,步骤包括:
步骤1、预处理html代码,去除代码中的干扰因素;
步骤2、遍历目标页面的html标签,并对其进行归类;
步骤3、将目标数据与html标签进行匹配;
步骤4、根据匹配结果,提取所有目标数据项。
2.根据权利要求1所述的基于html标签匹配的网页数据提取方法,其特征在于,步骤1中去除代码中的干扰因素包括去除用来注释的<!-->标签,去除定义客户端脚本的<script>...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。