基于Web结构特征挖掘的网页类型自动识别方法技术

技术编号：17033009 阅读：401 留言：0更新日期：2018-01-13 19:27

本发明专利技术公开了一种基于Web结构特征挖掘的网页类型自动识别方法，包括以下步骤：S1、通过爬虫系统获取网页源码集；S2、对网页源码进行预处理；S3、进行网页特征提取；S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。本发明专利技术在提取网页特征集之前，采用深度优先遍历搜索策略搜寻需要清除的噪声标签，减轻了网页的体积，减少了待处理标签的数量，提高了提取网页特征集的性能；通过对Web结构的挖掘，从与网页结构息息相关的四个方面提取HTML文档的特征集，再运用机器学习中分类算法构造分类器完成网页类型的自动识别，与其他网页类型识别方法相比而言，本发明专利技术具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。

全部详细技术资料下载

【技术实现步骤摘要】
基于Web结构特征挖掘的网页类型自动识别方法
本专利技术属于网页识别
，特别涉及一种基于Web结构特征挖掘的网页类型自动识别方法。
技术介绍
随着科学技术的迅猛发展，互联网因包含海量的信息而成为人们汲取知识的主要场所。近年来，在国家的大力推广以及资金的大量投入下，互联网越来越得到普及了。通过互联网络发展状况统计显示的数据可以得到以下结果，中国网站数量呈增长趋势，2016年6月统计，有454万个网站，相比于2015年12月增长了7.4％。由于网站数量的爆炸式增长，导致用户获取真正感兴趣的资源的难度急剧上升，这就是“信息过载”现象。面对纷繁复杂的网络世界，如何让人们快速、准确的得到有用的信息，将成为一个重要同时又有意义的研究方向。面对人们的需求，搜索引擎技术及信息检索技术得到了很好的发展，为人们获取信息做出了重大贡献。因为现有的网络爬虫技术已比较完善，如何再进一步智能优化爬虫系统，必然是从网页源码获取后的模块入手。新闻、博客和论坛网站是重要信息的主要来源，文本抽取技术应用于这几类网站是有重大意义的。而在文本抽取过程中，一般只关注有针对性的网页，譬如对新闻网页的文...
基于Web结构特征挖掘的网页类型自动识别方法

【技术保护点】
基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，包括以下步骤：S1、通过爬虫系统获取网页源码集；S2、对网页源码进行预处理；S3、进行网页特征提取；S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。

【技术特征摘要】
1.基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，包括以下步骤：S1、通过爬虫系统获取网页源码集；S2、对网页源码进行预处理；S3、进行网页特征提取；S4、运用机器学习中分类算法构造分类器，通过分类器完成网页类型的自动识别。2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S2包括以下子步骤：S21、清理噪声标签，把对目标网页类型正确自动识别有帮助的特征称为积极特征；把对目标网页类型正确自动识别无帮助的特征称为消极特征，将消极特征作为噪声标签清除；具体包括以下步骤：S211、用JAVA的API接口将网页源码解析成DOM树；S212、遍历DOM树的标签节点，判断当前标签是否属于待清除节点，若是则清除该标签节点并遍历下一个标签节点，否则将该标签节点添加到标签节点集中；S22、对标签节点集中的标签信息进行预处理，对单个标签节点进行处理，获取标签节点的标签结构信息。3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法，其特征在于，所述步骤S3包括以下子步骤：S31、采用正则匹配方法提取URL特征；S32、提取文本标签特征，包括以下步骤：S321、根据网页源码预处理中保留的标签信息，挖掘标签的9个属性：标签序号、标签文本长度、左标签长度、右标签长度、标签文本...

【专利技术属性】
技术研发人员：于富财，汪辉，文友枥，胡光岷，费高雷，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人