一种支持网页分类的方法和系统技术方案

技术编号:31495221 阅读:32 留言:0更新日期:2021-12-18 12:35
本发明专利技术涉及一种支持网页分类的方法和系统,本发明专利技术获取数据集网页的HTML文件和JS文件;根据DOM树计算特征向量;根据JS的CFG计算特征向量;将HTML文件和JS文件的对应特征向量组合,得到网页特征向量;将所得网页特征向量作为神经网络的输入,进行训练;以相同的方法获取待测网页的特征向量,输入神经网络,获取输出的分类。与现有技术相比,本发明专利技术具有提升动态加载网页的识别准确度,支持大规模网页分类检测,克服基于内容的网页分类中语言差异等缺陷等优点。缺陷等优点。缺陷等优点。

【技术实现步骤摘要】
一种支持网页分类的方法和系统


[0001]本专利技术涉及互联网通讯
,尤其是涉及一种支持网页分类的方法和系统。

技术介绍

[0002]在互联网的发展历程中,网页一直都是重要的参与者,从W3C万维网以共享信息为起始,网页开始出现,在共享的过程中,出现多种以复制网页源代码为代表性的盗取信息现象,也为类似网站有着相似的样式埋下了伏笔,现如今,移动互联网的第二波高潮以及网页可规模生成的便利性,网页数目爆炸性增长。
[0003]在对这些网页进行分类的过程中,主要是对Web页面进行处理。部分人员利用网页文本内容进行网页识别,部分人员通过网页图像、图片等显示内容进行网页识别,还有部分人员通过网页截图进行网页识别。而随着网页开发技术的不断发展更替,静态网页逐渐减少,越来越多的网站采用动态加载网页的方式。
[0004]所谓静态网页,是指页面数据和DOM树结构直接存储在HTML文件中。所谓动态加载网页,是指静态网页增强编程技术,在网页DOM树生成以及页面的渲染过程中,会根据JS代码进行动态调整而发生改变,因此如果直接通过爬虫爬取网页源代码,则本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种支持网页分类的方法,其特征在于,包括:资源获取步骤:获取动态加载网页的HTML文件和JS文件;HTML文件特征向量计算步骤:根据HTML的DOM树计算HTML文件对应的特征向量;JS文件特征向量计算步骤:获取JS文件中含属性参数的控制流图,并将控制流图的基本块转换成特征向量,基于基本块的特征向量计算JS文件的特征向量;网页特征向量计算步骤:将所得HTML文件特征向量和JS文件特征向量组合,得到该网页的特征向量;神经网络训练步骤:将已经打好标签的网页按照上述步骤转换为打好标签网页的特征向量,作为输入对神经网络进行训练;神经网络识别步骤:将待检测网页按照上述步骤转换为待检测网页的特征向量,输入训练好的神经网络,获取分类结果。2.根据权利要求1所述的支持网页分类的方法,其特征在于,所述资源获取步骤的具体步骤包括:爬取解析步骤:爬取所述动态加载网页的HTML文件,对所述动态加载网页的HTML标签进行解析,获取后缀名为JS的文件以及处于框架标签内的HTML文件及其文件路径;分类下载步骤:对获取的处于框架标签内的HTML文件认定为嵌入HTML文件,根据其文件路径是否输入源域名,将JS文件划分为源JS文件和嵌入JS文件,并进行下载。3.根据权利要求1所述的支持网页分类的方法,其特征在于,所述HTML文件特征向量计算步骤的具体步骤包括:标签识别步骤:对DOM树中的HTML标签...

【专利技术属性】
技术研发人员:陈超凡王轶骏
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1