【技术实现步骤摘要】
基于Web结构特征挖掘的网页类型自动识别方法
本专利技术属于网页识别
,特别涉及一种基于Web结构特征挖掘的网页类型自动识别方法。
技术介绍
随着科学技术的迅猛发展,互联网因包含海量的信息而成为人们汲取知识的主要场所。近年来,在国家的大力推广以及资金的大量投入下,互联网越来越得到普及了。通过互联网络发展状况统计显示的数据可以得到以下结果,中国网站数量呈增长趋势,2016年6月统计,有454万个网站,相比于2015年12月增长了7.4%。由于网站数量的爆炸式增长,导致用户获取真正感兴趣的资源的难度急剧上升,这就是“信息过载”现象。面对纷繁复杂的网络世界,如何让人们快速、准确的得到有用的信息,将成为一个重要同时又有意义的研究方向。面对人们的需求,搜索引擎技术及信息检索技术得到了很好的发展,为人们获取信息做出了重大贡献。因为现有的网络爬虫技术已比较完善,如何再进一步智能优化爬虫系统,必然是从网页源码获取后的模块入手。新闻、博客和论坛网站是重要信息的主要来源,文本抽取技术应用于这几类网站是有重大意义的。而在文本抽取过程中,一般只关注有针对性的网页,譬如对新闻网页的文 ...
【技术保护点】
基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。
【技术特征摘要】
1.基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,包括以下步骤:S1、通过爬虫系统获取网页源码集;S2、对网页源码进行预处理;S3、进行网页特征提取;S4、运用机器学习中分类算法构造分类器,通过分类器完成网页类型的自动识别。2.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S2包括以下子步骤:S21、清理噪声标签,把对目标网页类型正确自动识别有帮助的特征称为积极特征;把对目标网页类型正确自动识别无帮助的特征称为消极特征,将消极特征作为噪声标签清除;具体包括以下步骤:S211、用JAVA的API接口将网页源码解析成DOM树;S212、遍历DOM树的标签节点,判断当前标签是否属于待清除节点,若是则清除该标签节点并遍历下一个标签节点,否则将该标签节点添加到标签节点集中;S22、对标签节点集中的标签信息进行预处理,对单个标签节点进行处理,获取标签节点的标签结构信息。3.根据权利要求1所述的基于Web结构特征挖掘的网页类型自动识别方法,其特征在于,所述步骤S3包括以下子步骤:S31、采用正则匹配方法提取URL特征;S32、提取文本标签特征,包括以下步骤:S321、根据网页源码预处理中保留的标签信息,挖掘标签的9个属性:标签序号、标签文本长度、左标签长度、右标签长度、标签文本...
【专利技术属性】
技术研发人员:于富财,汪辉,文友枥,胡光岷,费高雷,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。