URL攻击检测方法、装置以及电子设备制造方法及图纸

技术编号:18119358 阅读:64 留言:0更新日期:2018-06-03 11:09
本说明书提供一种URL攻击检测方法,包括:从URL访问请求中携带的域名信息中提取若干维度的域名特征;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于PU‑Learning机器学习算法对若干URL访问请求样本进行训练得到的机器学习模型;基于所述风险评分确定所述URL访问请求是否为URL攻击请求。

URL attack detection methods, devices, and electronic devices

This specification provides an URL attack detection method, including: extracting the domain name features of several dimensions from the domain name information carried from the URL access request; input the domain name features into the preset URL attack detection model for prediction and calculation, and obtain the risk assessment of the URL access request; among them, the URL attack detection model is described. A machine learning model for a number of URL access request samples based on the PU Learning machine learning algorithm; based on the risk score, determine whether the URL access request is a URL attack request.

【技术实现步骤摘要】
URL攻击检测方法、装置以及电子设备
本说明书涉及计算机应用领域,尤其涉及一种URL攻击检测方法、装置、以及电子设备。
技术介绍
在互联网的应用场景中,每天都会产生大量的对于网址的URL访问请求。在这些大量的URL访问请求中,也不乏不法分子试图通过不合法的URL访问请求而发起的URL攻击;例如,常见的URL攻击如木马攻击、SQL注入攻击、跨站脚本攻击(XSS)等。这一类非法的URL访问请求,通常会与普通的URL访问请求存在一定的区别;因此,在构建线上系统的同时,通过一些安全手段对非法用户发起的URL攻击进行快速的识别检测是不可忽视的问题。
技术实现思路
本说明书提出一种URL攻击检测方法,所述方法包括:从URL访问请求中携带的域名信息中提取若干维度的域名特征;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于PU-Learning机器学习算法训练得到的机器学习模型;基于所述风险评分确定所述URL访问请求是否为URL攻击请求。可选的,所述URL攻击检测模型为基于代价敏感的PU-Learning机器学习算法训练得到的机器学习模型。可选的,所述方法还包括:从若干URL访问请求样本中携带的域名信息中提取若干维度的域名特征;其中,所述若干URL访问请求样本包括被标记了样本标签的URL访问请求样本和未标记样本标签的URL访问请求样本;所述样本标签表征所述URL访问请求样本为URL攻击请求;基于提取到的域名特征构建训练样本;基于代价敏感的PU-Learning机器学习算法对所述若干URL访问请求样本进行训练得到所述URL攻击检测模型。可选的,与被标记了样本标签的URL访问请求样本和未标记样本标签的URL访问请求样本对应的损失函数,分别被配置了代价敏感权重;其中,与被标记了样本标签的URL访问请求样本对应的损失函数的代价敏感权重,大于与未标记样本标签的URL访问请求样本对应的损失函数的代价敏感权重。可选的,所述URL攻击检测模型包括基于PU-Learning机器学习算法训练得到的多个机器学习模型;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分,包括:将所述域名特征分别输入所述多个机器学习模型进行预测计算,得到多个风险评分;对所述多个风险评分进行加权计算得到所述URL访问请求的风险评分。可选的,提取出的所述若干维度的域名特征包括以下域名特征中的多个的组合:域名信息的字符总数、域名信息的字母总数、域名信息的数字总数、域名信息的符号总数、域名信息的不同字符数、域名信息的不同字母数、域名信息的不同数字数、域名信息的不同符号数。本说明书还提出一种URL攻击检测装置,所述装置包括:第一提取模块,从URL访问请求中携带的域名信息中提取若干维度的域名特征;预测模块,将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于PU-Learning机器学习算法训练得到的机器学习模型;确定模块,基于所述风险评分确定所述URL访问请求是否为URL攻击请求。可选的,所述URL攻击检测模型为基于代价敏感的PU-Learning机器学习算法训练得到的机器学习模型。可选的,所述装置还包括:第二提取模块,从若干URL访问请求样本中携带的域名信息中分别提取若干维度的域名特征;其中,所述若干URL访问请求样本包括被标记了样本标签的URL访问请求样本和未标记样本标签的URL访问请求样本;所述样本标签表征所述URL访问请求样本为URL攻击请求;构建模块,基于提取到的域名特征构建训练样本;训练模块,基于代价敏感的PU-Learning机器学习算法对所述若干URL访问请求样本进行训练得到所述URL攻击检测模型。可选的,与被标记了样本标签的URL访问请求样本和未标记样本标签的URL访问请求样本对应的损失函数,分别被配置了代价敏感权重;其中,与被标记了样本标签的URL访问请求样本对应的损失函数的代价敏感权重,大于与未标记样本标签的URL访问请求样本对应的损失函数的代价敏感权重。可选的,所述URL攻击检测模型包括基于PU-Learning机器学习算法训练得到的多个机器学习模型;将预测模块进一步:将所述域名特征分别输入所述多个机器学习模型进行预测计算,得到多个风险评分;对所述多个风险评分进行加权计算得到所述URL访问请求的风险评分。可选的,提取出的所述若干维度的域名特征包括以下域名特征中的多个的组合:域名信息的字符总数、域名信息的字母总数、域名信息的数字总数、域名信息的符号总数、域名信息的不同字符数、域名信息的不同字母数、域名信息的不同数字数、域名信息的不同符号数。本说明书还提出一种电子设备,包括:处理器;用于存储机器可执行指令的存储器;其中,通过读取并执行所述存储器存储的与URL攻击检测的控制逻辑对应的机器可执行指令,所述处理器被促使:从URL访问请求中携带的域名信息中提取若干维度的域名特征;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于PU-Learning机器学习算法对若干URL访问请求样本进行训练得到的机器学习模型;基于所述风险评分确定所述URL访问请求是否为URL攻击请求。本说明书实施例提供的技术方案,通过将从URL访问请求中携带的域名信息中提取出的域名特征输入至基于PU-Learning机器学习算法训练出的URL攻击检测模型进行预测计算,来对URL访问请求进行攻击检测,可以提前发现潜在的URL攻击,从而有助于对潜在的异常URL访问及时的进行安全防护。附图说明图1是本说明书一实施例示出的URL攻击检测方法的流程图;图2是本说明书一实施例示出的一种构建训练样本集训练PU-Learning模型的流程图;图3是本说明书一实施例提供的承载一种URL攻击检测装置的电子设备所涉及的硬件结构图;图4是本说明书一实施例提供的一种所述URL攻击检测装置的逻辑框图。具体实施方式机器学习,根据训练样本是否有标记信息,通常被划分为为有监督学习、无监督学习、半监督学习这三大类。其中,半监督学习,是指用于训练机器学习模型的训练样本中,仅部分训练样本是有标记样本,而其余的训练样本为无标记样本,利用无标记样本来辅助有标记样本的学习过程。传统的半监督学习,通常存在多种类型的标记样本;例如,对于应用极为广泛的二分类问题,有标记的训练样本通常被划分为有标记的正样本和负样本;然而,在实际场景中,建模一方收集到的训练样本中的有标记样本,很可能只包含一个类别的标记;比如,可能只有少量有标记的正样本,其余的样本均为无标记样本。而针对于这场景的机器学习,通常称之PULearning(PositiveandUnlabeledLearning,正样本和无标记学习),即针对有标记的正样本和无标记样本的机器学习过程。在传统的进行URL攻击检测的安全系统中,通常会沉淀大量的被标记为URL攻击的URL访问请求,和大量无标记的URL访问请求;因此,如何利用传统的安全系统中沉淀的这些携带标记和未被标记的URL访问请求,通过机器学习的方式来提前发现那些潜在的U本文档来自技高网...
URL攻击检测方法、装置以及电子设备

【技术保护点】
一种URL攻击检测方法,所述方法包括:从URL访问请求中携带的域名信息中提取若干维度的域名特征;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于PU‑Learning机器学习算法训练得到的机器学习模型;基于所述风险评分确定所述URL访问请求是否为URL攻击请求。

【技术特征摘要】
1.一种URL攻击检测方法,所述方法包括:从URL访问请求中携带的域名信息中提取若干维度的域名特征;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于PU-Learning机器学习算法训练得到的机器学习模型;基于所述风险评分确定所述URL访问请求是否为URL攻击请求。2.根据权利要求1所述的方法,所述URL攻击检测模型为基于代价敏感的PU-Learning机器学习算法训练得到的机器学习模型。3.根据权利要求1所述的方法,所述方法还包括:从若干URL访问请求样本中携带的域名信息中提取若干维度的域名特征;其中,所述若干URL访问请求样本包括被标记了样本标签的URL访问请求样本和未标记样本标签的URL访问请求样本;所述样本标签表征所述URL访问请求样本为URL攻击请求;基于提取到的域名特征构建训练样本;基于代价敏感的PU-Learning机器学习算法对所述若干URL访问请求样本进行训练得到所述URL攻击检测模型。4.根据权利要求3所述的方法,与被标记了样本标签的URL访问请求样本和未标记样本标签的URL访问请求样本对应的损失函数,分别被配置了代价敏感权重;其中,与被标记了样本标签的URL访问请求样本对应的损失函数的代价敏感权重,大于与未标记样本标签的URL访问请求样本对应的损失函数的代价敏感权重。5.根据权利要求1所述的方法,所述URL攻击检测模型包括基于PU-Learning机器学习算法训练得到的多个机器学习模型;将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分,包括:将所述域名特征分别输入所述多个机器学习模型进行预测计算,得到多个风险评分;对所述多个风险评分进行加权计算得到所述URL访问请求的风险评分。6.根据权利要求1或者3所述的方法,提取出的所述若干维度的域名特征包括以下域名特征中的多个的组合:域名信息的字符总数、域名信息的字母总数、域名信息的数字总数、域名信息的符号总数、域名信息的不同字符数、域名信息的不同字母数、域名信息的不同数字数、域名信息的不同符号数。7.一种URL攻击检测装置,所述装置包括:第一提取模块,从URL访问请求中携带的域名信息中提取若干维度的域名特征;预测模块,将所述域名特征输入预设的URL攻击检测模型进行预测计算,得到所述URL访问请求的风险评分;其中,所述URL攻击检测模型为基于...

【专利技术属性】
技术研发人员:李龙飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1