一种检测网址链接信息的方法、装置及设备制造方法及图纸

技术编号:35977597 阅读:62 留言:0更新日期:2022-12-17 22:46
本发明专利技术提供了一种检测网址链接信息的方法、装置及设备,其中,检测网址链接信息的方法包括:获取待检测的网址链接信息;利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果;其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoost分类模型时数量小的样本的误分类代价。本方案很好的解决了现有技术中针对恶意网址检测的方案准确率低的问题。址检测的方案准确率低的问题。址检测的方案准确率低的问题。

【技术实现步骤摘要】
一种检测网址链接信息的方法、装置及设备


[0001]本专利技术涉及信息检测
,尤其涉及一种检测网址链接信息的方法、装置及设备。

技术介绍

[0002]网络安全在全球政治、经济、军事、科技等所有社会活动中,占据着最为关键和重要的位置之一。随着互联网的发展,网络攻击已成为越来越重要的安全问题。多种攻击类型,例如网络钓鱼,特洛伊木马和恶意软件,经常使用恶意URL作为一种攻击手段。因此,识别恶意URL对防止各种网络攻击和维护网络安全具有重要意义。
[0003]现有恶意网址(也可理解为非正常类别的网址链接)的检测技术主要是黑名单技术和启发式技术;其中:
[0004]黑名单技术是恶意网址发现算法中最传统、最经典的技术。网页黑名单中包含已知的恶意网址列表,通常是由具有公信力的网站根据用户举报、网页内容分析等手段生成并发布。当用户浏览某一网址时,基于网页黑名单的数据库就开始进行搜索。如果这个网址在网页黑名单库中,它就会被认为是恶意网址,浏览器会出现警告信息;否则认为此网址是正常网址。
[0005]启发式技术是对黑名单技术的一种补充算法,其主要原理是利用从恶意网址中发现的黑名单相似性规则来发现并识别恶意网页。此算法可以依靠现有的启发式规则识别(已有的以及部分之前未出现的)恶意网页,而不需要依靠黑名单的精确匹配来完成恶意网页识别。
[0006]但是,上述技术分别存在以下缺陷:
[0007]黑名单技术不能够及时更新所有的恶意网址。因此,黑名单技术只能给与用户最低程度的保护,并不能及时检测出恶意网站,阻断用户对恶意网站的访问;有着漏判严重、更新时效性低等缺点。
[0008]启发式算法存在误报率高以及规则更新难等一些众所周知的缺点。
[0009]由上可知,日益增长的网络流量使得有效识别恶意链接成为亟待解决的网络安全问题之一。但是,现有技术中针对恶意网址检测的方案存在准确率低等问题。

技术实现思路

[0010]本专利技术的目的在于提供一种检测网址链接信息的方法、装置及设备,以解决现有技术中针对恶意网址检测的方案准确率低的问题。
[0011]为了解决上述技术问题,本专利技术实施例提供一种检测网址链接信息的方法,包括:
[0012]获取待检测的网址链接信息;
[0013]利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果;
[0014]其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;
[0015]所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;
[0016]所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoost分类模型时数量小的样本的误分类代价。
[0017]可选的,所述XGBoost分类模型的损失函数为:
[0018][0019]其中,L
a
表示所述XGBoost分类模型的损失函数值,n表示总样本数,i表示第i个样本,a表示所述敏感因子,y
i
表示第i个样本的真实分类值,表示第i个样本的预测分类值。
[0020]可选的,所述敏感因子的值大于1。
[0021]可选的,所述敏感因子的取值区间为[N/P,(N+P)/P];
[0022]其中,N表示用于获取所述敏感因子的正常类别的网址链接的数量,P表示用于获取所述敏感因子的非正常类别的网址链接的数量,且N大于P。
[0023]可选的,在利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果之前,还包括:
[0024]根据第一模型评价指标、第一网址链接测试数据和初始分类模型,获取所述敏感因子的取值范围;
[0025]根据第二网址链接测试数据,获取训练集;
[0026]利用网格搜索算法,根据所述敏感因子的取值范围、训练集和初始分类模型,得到所述XGBoost分类模型;
[0027]其中,所述第一模型评价指标包括:受试者工作特征曲线下方的面积AUC、G

mean和恶意链接检测准确率TPR中的至少一项;
[0028]所述第二网址链接测试数据与第一网址链接测试数据相同或不同。
[0029]可选的,所述利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果,包括:
[0030]利用极端梯度提升XGBoost分类模型,根据类别阈值,对所述网址链接信息进行检测,得到分类结果。
[0031]可选的,所述利用极端梯度提升XGBoost分类模型,根据类别阈值,对所述网址链接信息进行检测,得到分类结果,包括:
[0032]利用极端梯度提升XGBoost分类模型,检测所述网址链接信息,得到对应的预测概率值;
[0033]根据类别阈值和所述预测概率值,得到所述网址链接信息的分类结果;
[0034]其中,所述预测概率值表示所述网址链接信息为非正常类别的概率值,或者,为正常类别的概率值。
[0035]本专利技术实施例还提供了一种检测网址链接信息的装置,包括:
[0036]第一获取模块,用于获取待检测的网址链接信息;
[0037]第一分类模块,用于利用极端梯度提升XGBoost分类模型,对所述网址链接信息进
行检测,得到分类结果;
[0038]其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;
[0039]所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;
[0040]所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoost分类模型时数量小的样本的误分类代价。
[0041]可选的,所述XGBoost分类模型的损失函数为:
[0042][0043]其中,L
a
表示所述XGBoost分类模型的损失函数值,n表示总样本数,i表示第i个样本,a表示所述敏感因子,y
i
表示第i个样本的真实分类值,表示第i个样本的预测分类值。
[0044]可选的,所述敏感因子的值大于1。
[0045]可选的,所述敏感因子的取值区间为[N/P,(N+P)/P];
[0046]其中,N表示用于获取所述敏感因子的正常类别的网址链接的数量,P表示用于获取所述敏感因子的非正常类别的网址链接的数量,且N大于P。
[0047]可选的,还包括:
[0048]第二获取模块,用于在利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果之前,根据第一模型评价指标、第一网址链接测试数据和初始分类模型,获取所述敏感因子的取值范围;
[0049]第三获取模块,用于根据第二网址链接测试数据,获取训练集;...

【技术保护点】

【技术特征摘要】
1.一种检测网址链接信息的方法,其特征在于,包括:获取待检测的网址链接信息;利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果;其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoost分类模型时数量小的样本的误分类代价。2.根据权利要求1所述的方法,其特征在于,所述XGBoost分类模型的损失函数为:其中,L
a
表示所述XGBoost分类模型的损失函数值,n表示总样本数,i表示第i个样本,a表示所述敏感因子,y
i
表示第i个样本的真实分类值,表示第i个样本的预测分类值。3.根据权利要求1所述的方法,其特征在于,所述敏感因子的取值区间为[N/P,(N+P)/P];其中,N表示用于获取所述敏感因子的正常类别的网址链接的数量,P表示用于获取所述敏感因子的非正常类别的网址链接的数量,且N大于P。4.根据权利要求1所述的方法,其特征在于,在利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果之前,还包括:根据第一模型评价指标、第一网址链接测试数据和初始分类模型,获取所述敏感因子的取值范围;根据第二网址链接测试数据,获取训练集;利用网格搜索算法,根据所述敏感因子的取值范围、训练集和初始分类模型,得到所述XGBoost分类模型;其中,所述第一模型评价指标包括:受试者工作特征曲线下方的面积AUC、G

mean和恶意链接检测准确率TPR中的至少一项;所述第二网址链接测试数据与第一网址链接测试数据相同或不同。5.根据权利要求1所述的方法,其特征在于,所述利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果,包括:利用极端梯度提升XGBoost分类模型,检测所述网址链接信息,得到对应的预测概率值;根据类别阈值和所述预测概率值,得到所述网址链接信息的分类结果;其中,所述预测概率值表示所述网址链接信息为非正常类别的概率值,或者,为正常类别的概率值。6.一种检测网址链接信息的装置,其特征在于,包括:第一获取模块,用于获取待检测的网址链接信息;第一分类模块,用于利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检
测,得到分类结果;其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoo...

【专利技术属性】
技术研发人员:李邦灵彭华熹张二鹏辛军
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1