基于Web结构特征挖掘的网页类型自动识别方法技术

技术编号:17033009 阅读:401 留言:0更新日期:2018-01-13 19:27
本发明专利技术公开了一种基于Web结构特征挖掘的网页类型自动识别方法,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。本发明专利技术在提取网页特征集之前,采用深度优先遍历搜索策略搜寻需要清除的噪声标签,减轻了网页的体积,减少了待处理标签的数量,提高了提取网页特征集的性能;通过对Web结构的挖掘,从与网页结构息息相关的四个方面提取HTML文档的特征集,再运用机器学习中分类算法构造分类器完成网页类型的自动识别,与其他网页类型识别方法相比而言,本发明专利技术具有思路简单、易于实现、便于拓展、通用性强和准确率高的特点。

【技术实现步骤摘要】
基于Web结构特征挖掘的网页类型自动识别方法
本专利技术属于网页识别
,特别涉及一种基于Web结构特征挖掘的网页类型自动识别方法。
技术介绍
随着科学技术的迅猛发展,互联网因包含海量的信息而成为人们汲取知识的主要场所。近年来,在国家的大力推广以及资金的大量投入下,互联网越来越得到普及了。通过互联网络发展状况统计显示的数据可以得到以下结果,中国网站数量呈增长趋势,2016年6月统计,有454万个网站,相比于2015年12月增长了7.4%。由于网站数量的爆炸式增长,导致用户获取真正感兴趣的资源的难度急剧上升,这就是“信息过载”现象。面对纷繁复杂的网络世界,如何让人们快速、准确的得到有用的信息,将成为一个重要同时又有意义的研究方向。面对人们的需求,搜索引擎技术及信息检索技术得到了很好的发展,为人们获取信息做出了重大贡献。因为现有的网络爬虫技术已比较完善,如何再进一步智能优化爬虫系统,必然是从网页源码获取后的模块入手。新闻、博客和论坛网站是重要信息的主要来源,文本抽取技术应用于这几类网站是有重大意义的。而在文本抽取过程中,一般只关注有针对性的网页,譬如对新闻网页的文本抽取的前提条件是网本文档来自技高网...
基于Web结构特征挖掘的网页类型自动识别方法

【技术保护点】
基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。

【技术特征摘要】
1.基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S2包括以下子步骤:S21、清理噪声标签,把对目标网页类型正确自动识别有帮助的特征称为积极特征;把对目标网页类型正确自动识别无帮助的特征称为消极特征,将消极特征作为噪声标签清除;具体包括以下步骤:S211、用JAVA的API接口将网页源码解析成DOM树;S212、遍历DOM树的标签节点,判断当前标签是否属于待清除节点,若是则清除该标签节点并遍历下一个标签节点,否则将该标签节点添加到标签节点集中;S22、对标签节点集中的标签信息进行预处理,对单个标签节点进行处理,获取标签节点的标签结构信息。3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S3包括以下子步骤:S31、采用正则匹配方法提取URL特征;S32、提取文本标签特征,包括以下步骤:S321、根据网页源码预处理中保留的标签信息,挖掘标签的9个属性:标签序号、标签文本长度、左标签长度、右标签长度、标签文本...

【专利技术属性】
技术研发人员:于富财汪辉文友枥胡光岷费高雷
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1