【技术实现步骤摘要】
一种基于稀疏自编码器的恶意URL检测方法
[0001]本专利技术涉及网络与信息安全
,具体涉及一种基于稀疏自编码器的恶意URL检测方法
技术介绍
[0002]随着互联网与web技术的发展,应用的功能与范围不断拓展,同时也有着大量的安全问题存在其中,不法用户采取各种手段向web服务器发送经过伪装的请求,达到窃取信息、探测漏洞等攻击目的,可能会给个人、企业及政府等关联单位造成巨大损失。由于大量的恶意访问和攻击是能够通过对URL的分析和检测来发现的,因此对恶意URL的研究是网络安全领域中一个很重要的课题。
[0003]各种方法随着技术的发展在不断地被提出,目前针对恶意URL的检测主要有基于模板匹配与机器学习两类方法。基于模板匹配的方法是现实工程实践中最常用的一种恶意URL检测方法,通过维护一套黑名单或规则库来完成对恶意URL的识别和过滤,应用起来简单高效且准确,但该方法是一种严重依赖已有知识的方法,其中存在的一个最大问题就是在检测能力上具有滞后性,无法针对新增的恶意类型进行有效的检测,因此在新的方法探索中已经很少考虑 ...
【技术保护点】
【技术特征摘要】
1.一种基于稀疏自编码器的恶意URL检测方法,其特征在于,包括以下步骤:S1、通过web应用采集全面的正常URL作为样本,构建训练数据集;S2、URL预处理,并根据需求对URL中的部分参数值进行映射处理;S3、对URL样本进行特征提取,转换成可计算的特征向量,并对特征向量进行归一化处理;S4、构建稀疏自编码器SAE,并对稀疏自编码器进行训练;S5、测试模型检测效果,将一URL所转换的特征向量输入训练完成的稀疏自编码器,得到重构的输出向量,通过计算输入与输出的空间距离来判断是否为恶意URL。2.根据权利要求1所述的基于稀疏自编码器的恶意URL检测方法,其特征在于,所述步骤S2的URL预处理过程,包括转义、字符小写转换以及空字符替换几个操作,另外根据需求对URL中的部分参数值进行映射,映射的方式如下:对于参数值中的数字字符,映射为字符
‘0’
;对于参数值中的英文字符,映射为字符
‘
a
’
;对于参数值中的中文字符,映射为字符
‘
b
’
;对于参数值中的其他符号字符,映射为字符
‘
#
’
。3.根据权利要求1所述的基于稀疏自编码器的恶意URL检测方法,其特征在于,所述步骤S3的URL特征提取过程,包括以下分步骤:S3.1、通过TF
‑
IDF方法对URL进行处理,将对应URL转换为向量v1;S3.2、通过Doc2Vec方法对URL进行处理,将对应URL转换为向量v2;S3.3、连接向量v1与v2,得到用于表达URL的特征向量v;S3.4、通过公式对特征向量v执行归一化操作,得到特征向量v
′
,其中max(v)表示向量v中最大值,min(v)表示向量v中最小值。4.根据权利要求1所述的基于稀疏自编码器的恶意URL检测方法,其特征在于,所述步骤S4所构建的稀疏自编码器网络,其结构由三层网络组成,包括输入层、隐藏层与输出层,输入层映射到隐藏层为编码过程,隐藏层映射到输出层为解码过程,网络的激活函数为Sigmod函数。5.根据权利要求1所述的基于稀疏自编码器的恶意URL检测方法,其特征在于,所述步骤S4在训练稀疏自编码器的过程中,URL的特征向量作为原始数...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。