一种网站分类方法技术

技术编号:9718850 阅读:82 留言:0更新日期:2014-02-27 05:38
本发明专利技术公开了一种网站分类方法,包括:获取网站的多维属性,利用集合对多维属性进行表示;针对表示多维属性的集合,进行自编码特征学习;利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将该结构输入到步骤S103得到的SVM中,进行网站分类,得到网站的类别。本发明专利技术的网站分类方法能高效准确的按照行业类别对网站进行分类,并且能快速侦测具有恶意特征的钓鱼网页;采用多维属性描述的方式,增加系统的便利性与通用性;且系统具有极强的稳定性。

【技术实现步骤摘要】
一种网站分类方法
本专利技术涉及网络安全
,特别是涉及一种网站分类方法。
技术介绍
伴随着互联网产业的蓬勃发展,钓鱼欺诈、木马暗链和隐私泄露等网络安全事件频发,对网络用户造成了严重的财产、精神伤害。如何能够快速智能的识别钓鱼网站,以及针对不同类型网站给出合适的隐私保护等级,成为当前安全领域研究的热点。这就需要一种智能准确的网站分类的技术来处理海量互联网网站。目前,对于网站分类技术,国内外的研究并不算很广泛,而且分析中使用的网站特征描述较为单一。总体而言,主要有如下几个研究方向:(1)基于网页文本。JohnPierre最早提出将整个网站上网页的文字或标签集合为一个整体构造空间向量,利用文本分类的方法进行分类,实验结果并不理想。(2)基于网站结构。Hans-PeterKriegel等人利用网站中各类类别网页的出现频率来进行网站分类,MajidYazdani等人在此基础上提出了隐马尔科夫的模型。这类网站分类模型特别适用单个类别网站的选取和判断。(3)基于用户HTTP行为分析。这一方法绕开了网页本身的处理,利用HTTP协议的行为来处理网站分类问题。在网站分类的类别划分上,还没有一个统一本文档来自技高网...
一种网站分类方法

【技术保护点】
一种网站分类方法,其特征在于,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别。

【技术特征摘要】
1.一种网站分类方法,其特征在于,包括:步骤S101,获取网站的多维属性,利用集合对多维属性进行表示;步骤S102,针对表示多维属性的集合,进行自编码特征学习;步骤S103,利用自编码学习结果,进行网站聚类学习,得到用于进行网站分类的支持向量机SVM;步骤S104,对任意一个未经标注的网站进行分类时,先进行步骤S101和步骤S102,得到与该网站对应的自编码学习结果;然后将与该网站对应的自编码学习结果输入到步骤S103得到的用于进行网站分类的支持向量机SVM中,进行网站分类,得到网站的类别;所述步骤S101具体包括:步骤S1011,提取网站首页超文本标记语言HTML标题、HTML正文和层叠样式表CSS主题色彩;步骤S1012,对所述HTML标题和HTML正文进行分词处理,得到单词向量集合B={w1,w2,…,wn},n为正整数;步骤S1013,对每一个在向量B的单词wi,统计其在网页HTML的标签<a>、<h1>-<h6>、<title>、<em>、<strong>中出现的次数,按出现的次数加权后排名,得到排名后新单词向量集合B’={w’1,w’2,…,w’m};其中i=1,2,……,n;m为正整数,m<=n;步骤S1014,统计所述CSS主题色彩中使用最多的3种颜色类别,得到色彩向量描述集合C,C={c1,c2,c3};步骤S1015,获取属性值,建立属性描述集合S;其中,属性值包括下述中的一项或多项:网站服务器类型、Pow...

【专利技术属性】
技术研发人员:胡俊王明华云晓春李佳贺敏纪玉春何能强高胜朱天
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1