The embodiment of the invention provides a method and a device for identifying malicious websites, which can obtain the website information of the websites to be identified. The website information includes the website identification of the websites to be identified, and the website identification is input into the pre-trained recognition model, which is trained according to the initial data and the oversampled data. The initial data includes the site identification of the preset contrast website, the comparison website includes the preset malicious website and the preset non-malicious website, the oversampled data is processed according to the preset oversampling algorithm, and the recognition result of the identified website is determined according to the output of the recognition model. Based on the above processing, the training data can be balanced, the recognition accuracy of the recognition model can be improved, and the recognition accuracy of malicious websites can be improved.
【技术实现步骤摘要】
一种恶意网站的识别方法和装置
本专利技术涉及互联网
,特别是涉及一种恶意网站的识别方法和装置。
技术介绍
互联网的快速发展给人们带来了便利,例如,用户可以通过互联网下载各类资料、也可以通过网络购物。与此同时,各种网路犯罪行为也越来越频繁。不法分子通常假冒银行、电商或社交网站向用户发送诈骗信息,诱导用户登录恶意网站,进而盗取用户的信息,造成用户的经济损失。为了解决上述问题,现有技术中通常可以采用基于机器学习的方法,识别恶意网站,具体的,该方法主要是根据已知的恶意网站和非恶意网站的网页特征,如:网页的ICP(InternetContentProvider,网络内容服务商)证号、网页中的超链接个数、网页中的空链接个数、网页是否含有表单等信息构造训练数据,对预设的识别模型进行训练,并根据训练好的识别模型对待识别网站进行识别,判断该待识别网站是否为恶意网站。然而,现有技术中,训练数据往往不均衡,会导致识别模型的识别精度较低,进而降低了恶意网站识别的准确度。
技术实现思路
本专利技术实施例的目的在于提供一种恶意网站的识别方法和装置,可以提高恶意网站识别的准确度。具体技术方案如下:第一方面,为了达到上述目的,本专利技术实施例公开了一种恶意网站的识别方法,所述方法包括:获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对 ...
【技术保护点】
1.一种恶意网站的识别方法,其特征在于,所述方法包括:获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对所述初始数据进行处理得到的;根据所述识别模型的输出结果,确定所述待识别网站的识别结果。
【技术特征摘要】
1.一种恶意网站的识别方法,其特征在于,所述方法包括:获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对所述初始数据进行处理得到的;根据所述识别模型的输出结果,确定所述待识别网站的识别结果。2.根据权利要求1所述的方法,其特征在于,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:判断所述对比网站中,是否存在与所述待识别网站的网站标识相同的网站;如果所述对比网站中存在与所述待识别网站的网站标识相同的网站,根据与所述待识别网站存在相同的网站标识的网站,确定所述待识别网站的识别结果;如果所述对比网站中不存在与所述待识别网站的网站标识相同的网站,执行所述将所述网站标识输入至预先训练好的识别模型步骤。3.根据权利要求2所述的方法,其特征在于,所述网站信息还包括所述待识别网站的域名,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:获取所述待识别网站的域名对应的目标数字签名;判断预设的非恶意数字签名中,是否存在与所述目标数字签名的相似度大于第一预设阈值的数字签名;如果预设的非恶意数字签名中,存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,判定所述待识别网站为恶意网站;如果预设的非恶意数字签名中,不存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,执行所述将所述网站标识输入至预先训练好的识别模型步骤。4.根据权利要求2或3所述的方法,其特征在于,所述网站信息还包括所述待识别网站的网页图像,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:获取所述待识别网站的网页图像对应的目标图像指纹;判断预设的非恶意图像指纹中,是否存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹;如果预设的非恶意图像指纹中,存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹,判定所述待识别网站为恶意网站;如果预设的非恶意图像指纹中,不存在所述目标图像指纹的相似度大于第二预设阈值的图像指纹,执行所述将所述网站标识输入至预先训练好的识别模型步骤。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述待...
【专利技术属性】
技术研发人员:李小勇,张家桦,李继蕊,苑洁,高云全,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。