当前位置: 首页 > 专利查询>暨南大学专利>正文

一种基于URL的网页分类器构建方法及其分类方法技术

技术编号:20242512 阅读:24 留言:0更新日期:2019-01-29 23:23
本发明专利技术公开了一种基于URL的网页分类器构建方法及其分类方法,首先获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。针对于需要进行分类的网页,首先获取该网页的URL作为测试样本;然后通过选定的字符对其进行分词处理,最后转换成词向量;将测试样本的词向量输入上述构建得到的网页分类器中,通过网页分类器输出分类结果。本发明专利技术大大提高了恶意网页的分类准确率。

【技术实现步骤摘要】
一种基于URL的网页分类器构建方法及其分类方法
本专利技术涉及信息安全
,特别涉及一种基于URL的网页分类器构建方法及其分类方法。
技术介绍
互联网的开放性和虚拟化使得隐私、数据和交易安全面临严峻挑战,近年来,利用恶意网页进行网络犯罪的行为十分猖獗。据统计,近三分之一的网页都具有潜在的恶意性,恶意网页通过发送垃圾邮件、网络钓鱼等方式对用户发起攻击,使得没有任何安全防备意识的用户遭受各种各样的损害,包括资金损失、私人信息盗用等等,严重威胁了用户财产和信息安全。为此,如何及时有效地识别恶意网页成为当前亟待解决的重要问题。现有技术中,一般通过检测网页的内容和行为来识别网页是否为恶意网页;其中通过检测网页的内容来识别恶意网页时,需要检测网页的文本和图片内容、恶意代码片段、在服务器或代理日志中的行为记录等等,因此通过恶意网页的内容来识别恶意网页无法避开网页内容多变、可被加密或等价替换等难题。而通过检测网页的行为来识别恶意网页时,必须面对网页动态行为难以触发和跟踪等问题。
技术实现思路
本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种基于URL(UniformResourceLocators,统一资源定位器)的网页分类器构建方法,通过该方法构建的网页分类器大大提高了恶意网页的分类准确率。本专利技术的第二目的在于提供一种由上述构建的分类器实现的基于URL的网页分类方法。本专利技术的第一目的通过下述技术方案实现:一种基于URL的网页分类器构建方法,步骤如下:步骤S1、获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;步骤S2、针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;步骤S3、将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。优选的,所述步骤S1中,从良性以及恶意URL仓库中获取多个网页的URL,训练样本集中包括一定数量的网页属性为恶意的URL以及一定数量的网页属性为良性的URL。优选的,所述步骤S2中,选定的字符包括“?”,“=”,“.”,“&”,“-”和“#”。优选的,所述步骤S2中,针对于各训练样本分词处理后的结果,使用Word2vec转换成词向量。更进一步的,所述步骤S2中,在使用Word2vec转换得到词向量时,设置以下参数:词嵌入维度embeding-size、上下文窗口大小window和最小词频数min_count。优选的,卷积神经网络构建为从输入到输出,依次包括第一部分、第二部分、第三部分、第四部分和第五部分;其中:所述第一部分为输入层,用于输入各训练样本的词向量;所述第二部分从输入到输出方向,依次包括第一卷积层、第一池化层、第二卷积层和第二池化层,用于提取各种程度的上下文语义;其中第一卷积层和第二卷积层均包含三种大小的卷积核,第一卷积层和第二卷积层的尺寸相同;所述第三部分为向量合并层,用于将第二部分各卷积核卷积以后的结果合并为一个特征向量;所述第四部分为全连接层,包括第一全连接层和第二全连接层,第一全连接层针对特征向量进行Dropout处理,第二全连接层通过分类器得到特征向量对应的分数最高的类别;所述第五部分为输出层,用于输出分类结果。优选的,所述步骤S1获取到训练样本集后,针对训练样本集进行去重处理,具体如下:首先N选取一个初始值,获取训练样本集中各训练样本的前N个字符,针对于训练样本集中前N个字符相同的URL,进行去重处理后仅剩一个,然后判断训练样本集中训练样本的总数是否小于等于阈值,若否,则减小N的值,并做上述同样的处理,直到训练样本集中训练样本的总数减少到小于等于阈值;针对于去重处理后得到的最终训练样本集,通过选定的字符对训练样本集中各训练样本进行分词处理,然后转换成词向量。更进一步的,所述N取至20~30中的整数。本专利技术的第二目的通过下述技术方案实现:一种基于URL的网页分类方法,步骤如下:步骤X1、针对于需要进行分类的网页,首先获取该网页的URL,作为测试样本;然后通过选定的字符对测试样本进行分词处理,最后转换成词向量;步骤X2、将测试样本的词向量输入到上述本专利技术的第一目的方法构建得到的网页分类器中,通过网页分类器输出分类结果。优选的,所述步骤X1中,通过选定的字符“?”,“=”,“.”,“&”,“-”和“#”对各测试样本进行分词处理;所述步骤X1中,针对于各测试样本分词处理后的结果,使用Word2vec转换成词向量。本专利技术相对于现有技术具有如下的优点及效果:(1)本专利技术一种基于URL的网页分类器构建方法,首先获取多个网页的URL,针对各URL进行网页属性的标记,由标记好网页属性的各URL构成训练样本集;针对于各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;获取构建的卷积神经网络模型,将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。由上述可知,本专利技术方法在基于网页的URL的词汇特征的基础上通过训练卷积神经网络,从而构建得到网页分类器,由于网页的URL属于静态固定不变化的,因此本专利技术方法构建得到的网页分类器的分类结果不会受到网页内容和网页动态行为的影响,能够大大提高恶意网页的分类准确率,并且相比现有技术的网页检测方法,本专利技术方法具有操作简单、召回率、误报率和漏报率低的优点。(2)本专利技术基于URL的网页分类器构建方法中,通过选定的字符对各训练样本进行分词处理;其中URL是网络中每一个信息的唯一的地址,由三部分组成:资源类型、资源所在的主机域名和资源的文件名,基本格式如下,协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志。三段之间用“/”分隔,主机名和域名之间用“.”分隔,参数之间传递常用分隔符为“?”,“=”,“&”,“-”。一般钓鱼网页会在域名和主机名之间作文章,进行一些域名混淆的恶意行为,例如进行XSS跨站攻击和SQL注入等恶意行为。本专利技术方法中选用“?”,“=”,“.”,“&”,“-”和“#”这六个分隔符对URL链接进行切割,以便能够提取URL中的重要信息,进一步提高所构建网页分类器的分类准确率。(3)本专利技术基于URL的网页分类器构建方法中,卷积神经网络构建成从输入到输出,依次包括第一部分、第二部分、第三部分、第四部分和第五部分;其中各个部分的结构为基于词汇特征进行特别设置的,因此本专利技术中采用上述构建卷积神经网络训练得到的网页分类器,针对网页分类会更加有针对性。(4)本专利技术基于URL的网页分类器构建方法中,包括对训练样本集进行去重的处理,具体为:首先N选定一个值,获取训练样本集中各训练样本的前N个字符,针对于训练样本集中前N个字符相同的URL,去重处理后仅剩一个,然后判断训练样本集中训练样本的数量小于等于阈值,若否,则减小N的值,并做同样的处理,直到训练样本集中训练样本的数量小于等于阈值;本专利技术中,上述去重处理大大减少了训练样本集中的重复训练样本数,提高了训练样本集的精度;因此本专利技术上述操作获取到的训练样本集,能够在保障构建的分类器分类准确率的情况下,同时降低了计算复杂度本文档来自技高网...

【技术保护点】
1.一种基于URL的网页分类器构建方法,其特征在于,步骤如下:步骤S1、获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;步骤S2、针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;步骤S3、将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。

【技术特征摘要】
1.一种基于URL的网页分类器构建方法,其特征在于,步骤如下:步骤S1、获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;步骤S2、针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;步骤S3、将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。2.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S1中,从良性以及恶意URL仓库中获取多个网页的URL,训练样本集中包括一定数量的网页属性为恶意的URL以及一定数量的网页属性为良性的URL。3.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,选定的字符包括“?”,“=”,“.”,“&”,“-”和“#”。4.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,针对于各训练样本分词处理后的结果,使用Word2vec转换成词向量。5.根据权利要求4所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,在使用Word2vec转换得到词向量时,设置以下参数:词嵌入维度embeding-size、上下文窗口大小window和最小词频数min_count。6.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,卷积神经网络构建为从输入到输出,依次包括第一部分、第二部分、第三部分、第四部分和第五部分;其中:所述第一部分为输入层,用于输入各训练样本的词向量;所述第二部分从输入到输出方向,依次包括第一卷积层、第一池化层、第二卷积层和第二池化层,用于提取各种程度的上下文语义;其中第一卷积层和第二卷积...

【专利技术属性】
技术研发人员:孙玉霞赵晶晶仇之
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1