【技术实现步骤摘要】
一种检测网址链接信息的方法、装置及设备
[0001]本专利技术涉及信息检测
,尤其涉及一种检测网址链接信息的方法、装置及设备。
技术介绍
[0002]网络安全在全球政治、经济、军事、科技等所有社会活动中,占据着最为关键和重要的位置之一。随着互联网的发展,网络攻击已成为越来越重要的安全问题。多种攻击类型,例如网络钓鱼,特洛伊木马和恶意软件,经常使用恶意URL作为一种攻击手段。因此,识别恶意URL对防止各种网络攻击和维护网络安全具有重要意义。
[0003]现有恶意网址(也可理解为非正常类别的网址链接)的检测技术主要是黑名单技术和启发式技术;其中:
[0004]黑名单技术是恶意网址发现算法中最传统、最经典的技术。网页黑名单中包含已知的恶意网址列表,通常是由具有公信力的网站根据用户举报、网页内容分析等手段生成并发布。当用户浏览某一网址时,基于网页黑名单的数据库就开始进行搜索。如果这个网址在网页黑名单库中,它就会被认为是恶意网址,浏览器会出现警告信息;否则认为此网址是正常网址。
[0005]启发式技术是对黑名单技术的一种补充算法,其主要原理是利用从恶意网址中发现的黑名单相似性规则来发现并识别恶意网页。此算法可以依靠现有的启发式规则识别(已有的以及部分之前未出现的)恶意网页,而不需要依靠黑名单的精确匹配来完成恶意网页识别。
[0006]但是,上述技术分别存在以下缺陷:
[0007]黑名单技术不能够及时更新所有的恶意网址。因此,黑名单技术只能给与用户最低程度的保护,并不能及时检测出恶意
【技术保护点】
【技术特征摘要】
1.一种检测网址链接信息的方法,其特征在于,包括:获取待检测的网址链接信息;利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果;其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoost分类模型时数量小的样本的误分类代价。2.根据权利要求1所述的方法,其特征在于,所述XGBoost分类模型的损失函数为:其中,L
a
表示所述XGBoost分类模型的损失函数值,n表示总样本数,i表示第i个样本,a表示所述敏感因子,y
i
表示第i个样本的真实分类值,表示第i个样本的预测分类值。3.根据权利要求1所述的方法,其特征在于,所述敏感因子的取值区间为[N/P,(N+P)/P];其中,N表示用于获取所述敏感因子的正常类别的网址链接的数量,P表示用于获取所述敏感因子的非正常类别的网址链接的数量,且N大于P。4.根据权利要求1所述的方法,其特征在于,在利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果之前,还包括:根据第一模型评价指标、第一网址链接测试数据和初始分类模型,获取所述敏感因子的取值范围;根据第二网址链接测试数据,获取训练集;利用网格搜索算法,根据所述敏感因子的取值范围、训练集和初始分类模型,得到所述XGBoost分类模型;其中,所述第一模型评价指标包括:受试者工作特征曲线下方的面积AUC、G
‑
mean和恶意链接检测准确率TPR中的至少一项;所述第二网址链接测试数据与第一网址链接测试数据相同或不同。5.根据权利要求1所述的方法,其特征在于,所述利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检测,得到分类结果,包括:利用极端梯度提升XGBoost分类模型,检测所述网址链接信息,得到对应的预测概率值;根据类别阈值和所述预测概率值,得到所述网址链接信息的分类结果;其中,所述预测概率值表示所述网址链接信息为非正常类别的概率值,或者,为正常类别的概率值。6.一种检测网址链接信息的装置,其特征在于,包括:第一获取模块,用于获取待检测的网址链接信息;第一分类模块,用于利用极端梯度提升XGBoost分类模型,对所述网址链接信息进行检
测,得到分类结果;其中,所述XGBoost分类模型中包含针对非正常类别的网址链接的敏感因子;所述敏感因子能够使得所述XGBoost分类模型中的第一误分类代价小于第二误分类代价;所述第一误分类代价对应于训练所述XGBoost分类模型时数量大的样本的误分类代价,所述第二误分类代价对应于训练所述XGBoo...
【专利技术属性】
技术研发人员:李邦灵,彭华熹,张二鹏,辛军,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。