The invention discloses a complete website source code acquisition method and an illegal website detection method and system. The system includes complete source code extraction module, feature extraction module and illegal website identification model. The complete source extraction module is used to extract the complete source code of the website. Feature extraction module is used to extract the text features of the complete source code, get the text feature set of the complete source code, and extract the non text of the complete source code. Statistical features; merge the features of each text feature set and calculate the average characteristic values of each feature, and get the text feature files; the illegal website recognition model is used to determine whether the site is an illegal website based on the complete source code features of the site to be identified and the statistical characteristics of its eigenvalues and non text. Based on the complete source text feature set, non text statistical feature and machine learning algorithm, the illegal website recognition model is generated. The invention improves the accuracy of the website recognition.
【技术实现步骤摘要】
一种完整网站源码获取方法及非法网站检测方法、系统
本专利技术涉及一种完整网站源码获取方法及非法网站检测方法、系统,属于网络
技术介绍
随着互联网的发展,互联网已经进入了各个领域。然而同样随着而来的是,互联网也被一些传统的非法行业所使用,如用来贩卖枪支、毒品,经营赌博、色情等。同时,这些不良网站中还可能会被嵌入木马、病毒等。对互联网的这些滥用,严重威胁了互联网的健康发展以及侵害网民身心健康以及财产安全。为了检测不良网站,研究者提出了许多的检测方法。黑白名单是非法网站鉴别的手段之一。各大浏览器厂商通过有规律的更新黑名单来达到对非法网站的识别、并起到提醒用户的作用。黑名单虽然有效,但是缺点很明显。各个浏览器厂商需要经常、及时更新该黑名单,如果一个非法网站未被及时收录到黑名单,则该非法网站无法被识别。基于文本内容启发式算法也是用来鉴别非法网站的手段之一。这类算法依赖一些提前预设的不良关键词和句子来识别不良网站,如果网站包含这些关键词或者句子,则将网站认作非法网站。这类算法过于简单,容易造成错分类,对于正常网站来说,例如新闻网站等,如果包含了一些关键词或句子,则被认为是非法网站。对于非法网站来说,这类方法和黑名单一样,如果关键词或句子覆盖度不够的话,则无法识别,将非法网站认定为正常网站。随着机器学习广泛的应用,机器学习也被应用于对非法网站鉴别。朴素贝叶斯、神经网络、支持向量机、决策树等算法在Chen-HueiChou等的论文《AtextminingapproachtoInternetabusedetection》中经实验证明在二分类的非法网站识别中有着良好 ...
【技术保护点】
一种完整网站源码获取方法,其步骤包括:1)对于每一目标网站,使用PhantomJS来动态加载该目标网站的JavaScript代码,获取执行完JavaScript之后的html代码;2)从该html代码中获取发起请求的标签中的URL,获取该URL的html代码并将其添加至该目标网站的完整源码的对应位置;3)递归步骤2)的处理,得到该目标网站的最终的完整源码。
【技术特征摘要】
1.一种完整网站源码获取方法,其步骤包括:1)对于每一目标网站,使用PhantomJS来动态加载该目标网站的JavaScript代码,获取执行完JavaScript之后的html代码;2)从该html代码中获取发起请求的标签中的URL,获取该URL的html代码并将其添加至该目标网站的完整源码的对应位置;3)递归步骤2)的处理,得到该目标网站的最终的完整源码。2.如权利要求1所述的方法,其特征在于,所述发起请求的标签为<iframe>标签。3.如权利要求1或2所述的方法,其特征在于,所述步骤2)中,设置一超时机制,如果设定时间内未收到当前URL的响应,则停止对该URL的访问请求。4.一种非法网站检测方法,其步骤包括:获取待识别网站的完整源码;根据非法网站识别模型中的文本特征文件,从该待识别网站的完整源码中提取相对应的特征作为该待识别网站的完整源码的特征,将该完整源码的特征的特征值设置为所述文本特征文件中对应特征的特征值;提取该待识别网站的完整源码的非文本的统计特征;将该待识别网站的完整源码特征及其特征值、非文本的统计特征输入该非法网站识别模型,判定该待识别网站是否为非法网站;其中,所述非法网站识别模型的生成方法为:获取样本网站集合中的每一网站的完整源码,得到完整源码集合;提取该完整源码集合中每一个完整源码的文本特征,得到该完整源码的文本特征集合;提取每一完整源码的非文本的统计特征;对各文本特征集合中的特征进行合并并计算每一特征的平均特征值,得到文本特征文件;基于该样本网站集合中各网站对应的完整源码的文本特征集合、非文本的统计特征和机器学习算法,生成非法网站识别模型。5.如权利要4所述的方法,其特征在于,得到所述文本特征文件的方法为:对该完整源码中的中文信息进行分词并计算每一分词的TF-IDF值;然后基于分词的信息增益值,选取多个分词作为该完整源码的特征,然后将选取的特征及其对应的TF-IDF值作为该完整源码的文本特征集合;将各文本特征集合中的特征进行合并并根据同一特征在不同文本特征集合中的TF-IDF值计算该特征...
【专利技术属性】
技术研发人员:周发,袁晓彤,耿光刚,延志伟,李晓东,
申请(专利权)人:中国互联网络信息中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。