【技术实现步骤摘要】
一种基于URL的网页分类器构建方法及其分类方法
本专利技术涉及信息安全
,特别涉及一种基于URL的网页分类器构建方法及其分类方法。
技术介绍
互联网的开放性和虚拟化使得隐私、数据和交易安全面临严峻挑战,近年来,利用恶意网页进行网络犯罪的行为十分猖獗。据统计,近三分之一的网页都具有潜在的恶意性,恶意网页通过发送垃圾邮件、网络钓鱼等方式对用户发起攻击,使得没有任何安全防备意识的用户遭受各种各样的损害,包括资金损失、私人信息盗用等等,严重威胁了用户财产和信息安全。为此,如何及时有效地识别恶意网页成为当前亟待解决的重要问题。现有技术中,一般通过检测网页的内容和行为来识别网页是否为恶意网页;其中通过检测网页的内容来识别恶意网页时,需要检测网页的文本和图片内容、恶意代码片段、在服务器或代理日志中的行为记录等等,因此通过恶意网页的内容来识别恶意网页无法避开网页内容多变、可被加密或等价替换等难题。而通过检测网页的行为来识别恶意网页时,必须面对网页动态行为难以触发和跟踪等问题。
技术实现思路
本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种基于URL(UniformRe ...
【技术保护点】
1.一种基于URL的网页分类器构建方法,其特征在于,步骤如下:步骤S1、获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;步骤S2、针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;步骤S3、将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。
【技术特征摘要】
1.一种基于URL的网页分类器构建方法,其特征在于,步骤如下:步骤S1、获取多个网页的URL,针对各URL进行网页属性的标记,由上述标记好网页属性的各URL作为训练样本,构成训练样本集;步骤S2、针对于训练样本集中的各训练样本,通过选定的字符对各训练样本进行分词处理,然后转换成词向量;步骤S3、将训练样本集中标记好网页属性的各训练样本的词向量作为输入针对卷积神经网络进行训练,得到网页分类器。2.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S1中,从良性以及恶意URL仓库中获取多个网页的URL,训练样本集中包括一定数量的网页属性为恶意的URL以及一定数量的网页属性为良性的URL。3.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,选定的字符包括“?”,“=”,“.”,“&”,“-”和“#”。4.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,针对于各训练样本分词处理后的结果,使用Word2vec转换成词向量。5.根据权利要求4所述的基于URL的网页分类器构建方法,其特征在于,所述步骤S2中,在使用Word2vec转换得到词向量时,设置以下参数:词嵌入维度embeding-size、上下文窗口大小window和最小词频数min_count。6.根据权利要求1所述的基于URL的网页分类器构建方法,其特征在于,卷积神经网络构建为从输入到输出,依次包括第一部分、第二部分、第三部分、第四部分和第五部分;其中:所述第一部分为输入层,用于输入各训练样本的词向量;所述第二部分从输入到输出方向,依次包括第一卷积层、第一池化层、第二卷积层和第二池化层,用于提取各种程度的上下文语义;其中第一卷积层和第二卷积...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。