一种完整网站源码获取方法及非法网站检测方法、系统技术方案

技术编号:17796565 阅读:54 留言:0更新日期:2018-04-25 20:03
本发明专利技术公开了一种完整网站源码获取方法及非法网站检测方法、系统。本系统包括完整源码提取模块、特征提取模块和非法网站识别模型;完整源码提取模块用于提取网站的完整源码;特征提取模块用于提取完整源码的文本特征,得到该完整源码的文本特征集合;以及提取该完整源码的非文本的统计特征;对各文本特征集合中的特征进行合并并计算每一特征的平均特征值,得到文本特征文件;非法网站识别模型,用于根据待识别网站的完整源码特征及其特征值、非文本的统计特征,判定该待识别网站是否为非法网站;基于样本网站集合中各网站对应的完整源码的文本特征集合、非文本的统计特征和机器学习算法,生成所述非法网站识别模型。本发明专利技术提高了网站识别准确性。

A complete website source code acquisition method and illegal website detection method and system

The invention discloses a complete website source code acquisition method and an illegal website detection method and system. The system includes complete source code extraction module, feature extraction module and illegal website identification model. The complete source extraction module is used to extract the complete source code of the website. Feature extraction module is used to extract the text features of the complete source code, get the text feature set of the complete source code, and extract the non text of the complete source code. Statistical features; merge the features of each text feature set and calculate the average characteristic values of each feature, and get the text feature files; the illegal website recognition model is used to determine whether the site is an illegal website based on the complete source code features of the site to be identified and the statistical characteristics of its eigenvalues and non text. Based on the complete source text feature set, non text statistical feature and machine learning algorithm, the illegal website recognition model is generated. The invention improves the accuracy of the website recognition.

【技术实现步骤摘要】
一种完整网站源码获取方法及非法网站检测方法、系统
本专利技术涉及一种完整网站源码获取方法及非法网站检测方法、系统,属于网络

技术介绍
随着互联网的发展,互联网已经进入了各个领域。然而同样随着而来的是,互联网也被一些传统的非法行业所使用,如用来贩卖枪支、毒品,经营赌博、色情等。同时,这些不良网站中还可能会被嵌入木马、病毒等。对互联网的这些滥用,严重威胁了互联网的健康发展以及侵害网民身心健康以及财产安全。为了检测不良网站,研究者提出了许多的检测方法。黑白名单是非法网站鉴别的手段之一。各大浏览器厂商通过有规律的更新黑名单来达到对非法网站的识别、并起到提醒用户的作用。黑名单虽然有效,但是缺点很明显。各个浏览器厂商需要经常、及时更新该黑名单,如果一个非法网站未被及时收录到黑名单,则该非法网站无法被识别。基于文本内容启发式算法也是用来鉴别非法网站的手段之一。这类算法依赖一些提前预设的不良关键词和句子来识别不良网站,如果网站包含这些关键词或者句子,则将网站认作非法网站。这类算法过于简单,容易造成错分类,对于正常网站来说,例如新闻网站等,如果包含了一些关键词或句子,则被认为是非法网站。对于非法网站来说,这类方法和黑名单一样,如果关键词或句子覆盖度不够的话,则无法识别,将非法网站认定为正常网站。随着机器学习广泛的应用,机器学习也被应用于对非法网站鉴别。朴素贝叶斯、神经网络、支持向量机、决策树等算法在Chen-HueiChou等的论文《AtextminingapproachtoInternetabusedetection》中经实验证明在二分类的非法网站识别中有着良好的效果。但是该论文中只使用了源码中文本信息来获取特征,依然存在认定不准确的问题。对于非法网站的建设者来说,为了躲避针对其网站的检测,也使用了很多反检测技术,进一步增加了检测难度。同时目前的网站难以采用传统方法获取其完整源码,如果无法获取真正、完整显示于浏览器中的html代码,则难以实现对网站进行准确检测。
技术实现思路
针对现有技术存在的技术问题,本专利技术的目的在于提供一种完整网站源码获取方法及非法网站检测方法、系统。本专利技术在获取的非法网站中,发现许多网站会采用在自身网页中使用JavaScript代码动态加载显示非法内容,或者将JavaScript代码不放置于自身网站代码中,而是使用异步加载的方式从其他地址获取,只有在浏览器解析时,JavaScript代码才会执行。同时,本专利技术发现有些网站不会在其自身的网页源码中使用非法内容,而是将非法网页的内容嵌套在&lt;iframe&gt;标签中,&lt;iframe&gt;标签也只有在浏览器解析原来的网页源码时,才会被加载到浏览器的显示页面中。非法网站通过使用这些方法,使得检测者无法通过wegt等工具获取不良网站真正、完整显示于浏览器中的html代码。因此如果无法获取真正、完整显示于浏览器中的html代码,则难以实现准确检测。本专利技术考虑了html中一些非文本的统计特征,如html结构中&lt;iframe&gt;标签数量等特征,同时在本专利技术实际使用过程中,发现随机森林算法效果优异。本专利技术的技术方案为:一种完整网站源码获取方法,其步骤包括:1)对于每一目标网站,使用PhantomJS来动态加载该目标网站的JavaScript代码,获取执行完JavaScript之后的html代码;2)从该html代码中获取发起请求的标签中的URL,获取该URL的html代码并将其添加至该目标网站的完整源码的对应位置;3)递归步骤2)的处理,得到该目标网站的最终的完整源码。进一步的,所述发起请求的标签为&lt;iframe&gt;标签。进一步的,所述步骤2)中,设置一超时机制,如果设定时间内未收到当前URL的响应,则停止对该URL的访问请求。一种非法网站检测方法,其步骤包括:获取待识别网站的完整源码;根据非法网站识别模型中的文本特征文件,从该待识别网站的完整源码中提取相对应的特征作为该待识别网站的完整源码的特征,将该完整源码的特征的特征值设置为所述文本特征文件中对应特征的特征值;提取该待识别网站的完整源码的非文本的统计特征;将该待识别网站的完整源码特征及其特征值、非文本的统计特征输入该非法网站识别模型,判定该待识别网站是否为非法网站;其中,所述非法网站识别模型的生成方法为:获取样本网站集合中的每一网站的完整源码,得到完整源码集合;提取该完整源码集合中每一个完整源码的文本特征,得到该完整源码的文本特征集合;提取每一完整源码的非文本的统计特征;对各文本特征集合中的特征进行合并并计算每一特征的平均特征值,得到文本特征文件;基于该样本网站集合中各网站对应的完整源码的文本特征集合、非文本的统计特征和机器学习算法,生成非法网站识别模型。进一步的,得到所述文本特征文件的方法为:对该完整源码中的中文信息进行分词并计算每一分词的TF-IDF值;然后基于分词的信息增益值,选取多个分词作为该完整源码的特征,然后将选取的特征及其对应的TF-IDF值作为该完整源码的文本特征集合;将各文本特征集合中的特征进行合并并根据同一特征在不同文本特征集合中的TF-IDF值计算该特征的平均TF-IDF值,根据合并后的特征及其平均TF-IDF值生成所述文本特征文件。进一步的,所述统计特征包括该完整源码的&lt;iframe&gt;标签数量、&lt;title&gt;标签的平均长度、URL的数量、<div>标签的数量、<ul>的数量、&符号的数量。进一步的,所述机器学习算法为随机森林算法。一种非法网站检测系统,其特征在于,包括完整源码提取模块、特征提取模块和非法网站识别模型;其中,所述完整源码提取模块,用于提取网站的完整源码;所述网站包括待识别网站和样本网站集合中的每一网站;所述样本网站集合包括多个非法网站和多个合法网站;所述特征提取模块,用于提取完整源码的文本特征,得到该完整源码的文本特征集合;以及提取该完整源码的非文本的统计特征;对各文本特征集合中的特征进行合并并计算每一特征的平均特征值,得到文本特征文件;所述非法网站识别模型,用于根据待识别网站的完整源码特征及其特征值、非文本的统计特征,判定该待识别网站是否为非法网站;其中,基于样本网站集合中各网站对应的完整源码的文本特征集合、非文本的统计特征和机器学习算法,生成所述非法网站识别模型。本专利技术针对非法网站的这些反检测方法,模仿浏览器的解析过程,来获取真正显示于浏览器的html代码。首先使用PhantomJS来动态加载JavaScript代码,获取执行完JavaScript之后的html代码。然后从获取到的html源码中,获取&lt;iframe&gt;标签中的URL,为了防止多重嵌套,本专利技术递归使用这些URL重复上述过程,最后获取真实、完整的html代码,同时在代码中添加了超时机制,对于无法响应的网站,超时不请求,防止了堵塞的可能。在能够获取真实、完整的html代码之后。本专利技术使用此程序获取了非法网站的html代码,以及正常网页代码,完成了数据集的构建。本专利技术首先使用TF-I本文档来自技高网
...
一种完整网站源码获取方法及非法网站检测方法、系统

【技术保护点】
一种完整网站源码获取方法,其步骤包括:1)对于每一目标网站,使用PhantomJS来动态加载该目标网站的JavaScript代码,获取执行完JavaScript之后的html代码;2)从该html代码中获取发起请求的标签中的URL,获取该URL的html代码并将其添加至该目标网站的完整源码的对应位置;3)递归步骤2)的处理,得到该目标网站的最终的完整源码。

【技术特征摘要】
1.一种完整网站源码获取方法,其步骤包括:1)对于每一目标网站,使用PhantomJS来动态加载该目标网站的JavaScript代码,获取执行完JavaScript之后的html代码;2)从该html代码中获取发起请求的标签中的URL,获取该URL的html代码并将其添加至该目标网站的完整源码的对应位置;3)递归步骤2)的处理,得到该目标网站的最终的完整源码。2.如权利要求1所述的方法,其特征在于,所述发起请求的标签为&lt;iframe&gt;标签。3.如权利要求1或2所述的方法,其特征在于,所述步骤2)中,设置一超时机制,如果设定时间内未收到当前URL的响应,则停止对该URL的访问请求。4.一种非法网站检测方法,其步骤包括:获取待识别网站的完整源码;根据非法网站识别模型中的文本特征文件,从该待识别网站的完整源码中提取相对应的特征作为该待识别网站的完整源码的特征,将该完整源码的特征的特征值设置为所述文本特征文件中对应特征的特征值;提取该待识别网站的完整源码的非文本的统计特征;将该待识别网站的完整源码特征及其特征值、非文本的统计特征输入该非法网站识别模型,判定该待识别网站是否为非法网站;其中,所述非法网站识别模型的生成方法为:获取样本网站集合中的每一网站的完整源码,得到完整源码集合;提取该完整源码集合中每一个完整源码的文本特征,得到该完整源码的文本特征集合;提取每一完整源码的非文本的统计特征;对各文本特征集合中的特征进行合并并计算每一特征的平均特征值,得到文本特征文件;基于该样本网站集合中各网站对应的完整源码的文本特征集合、非文本的统计特征和机器学习算法,生成非法网站识别模型。5.如权利要4所述的方法,其特征在于,得到所述文本特征文件的方法为:对该完整源码中的中文信息进行分词并计算每一分词的TF-IDF值;然后基于分词的信息增益值,选取多个分词作为该完整源码的特征,然后将选取的特征及其对应的TF-IDF值作为该完整源码的文本特征集合;将各文本特征集合中的特征进行合并并根据同一特征在不同文本特征集合中的TF-IDF值计算该特征...

【专利技术属性】
技术研发人员:周发袁晓彤耿光刚延志伟李晓东
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1