一种恶意网站的识别方法和装置制造方法及图纸

技术编号:19151553 阅读:30 留言:0更新日期:2018-10-13 10:37
本发明专利技术实施例提供了一种恶意网站的识别方法和装置,可以获取待识别网站的网站信息,网站信息包括待识别网站的网站标识,将网站标识输入至预先训练好的识别模型,识别模型为根据初始数据和过采样数据进行训练得到的,初始数据包括预设的对比网站的网站标识,对比网站包括预设的恶意网站和预设的非恶意网站,过采样数据为根据预设的过采样算法对初始数据进行处理得到的,根据识别模型的输出结果,确定待识别网站的识别结果。基于上述处理,可以平衡训练数据,提高识别模型的识别精度,进而提高恶意网站识别的准确度。

A method and device for identifying malicious websites

The embodiment of the invention provides a method and a device for identifying malicious websites, which can obtain the website information of the websites to be identified. The website information includes the website identification of the websites to be identified, and the website identification is input into the pre-trained recognition model, which is trained according to the initial data and the oversampled data. The initial data includes the site identification of the preset contrast website, the comparison website includes the preset malicious website and the preset non-malicious website, the oversampled data is processed according to the preset oversampling algorithm, and the recognition result of the identified website is determined according to the output of the recognition model. Based on the above processing, the training data can be balanced, the recognition accuracy of the recognition model can be improved, and the recognition accuracy of malicious websites can be improved.

【技术实现步骤摘要】
一种恶意网站的识别方法和装置
本专利技术涉及互联网
,特别是涉及一种恶意网站的识别方法和装置。
技术介绍
互联网的快速发展给人们带来了便利,例如,用户可以通过互联网下载各类资料、也可以通过网络购物。与此同时,各种网路犯罪行为也越来越频繁。不法分子通常假冒银行、电商或社交网站向用户发送诈骗信息,诱导用户登录恶意网站,进而盗取用户的信息,造成用户的经济损失。为了解决上述问题,现有技术中通常可以采用基于机器学习的方法,识别恶意网站,具体的,该方法主要是根据已知的恶意网站和非恶意网站的网页特征,如:网页的ICP(InternetContentProvider,网络内容服务商)证号、网页中的超链接个数、网页中的空链接个数、网页是否含有表单等信息构造训练数据,对预设的识别模型进行训练,并根据训练好的识别模型对待识别网站进行识别,判断该待识别网站是否为恶意网站。然而,现有技术中,训练数据往往不均衡,会导致识别模型的识别精度较低,进而降低了恶意网站识别的准确度。
技术实现思路
本专利技术实施例的目的在于提供一种恶意网站的识别方法和装置,可以提高恶意网站识别的准确度。具体技术方案如下:第一方面,为了达到上述目的,本专利技术实施例公开了一种恶意网站的识别方法,所述方法包括:获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对所述初始数据进行处理得到的;根据所述识别模型的输出结果,确定所述待识别网站的识别结果。可选的,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:判断所述对比网站中,是否存在与所述待识别网站的网站标识相同的网站;如果所述对比网站中存在与所述待识别网站的网站标识相同的网站,根据与所述待识别网站存在相同的网站标识的网站,确定所述待识别网站的识别结果;如果所述对比网站中不存在与所述待识别网站的网站标识相同的网站,执行所述将所述网站标识输入至预先训练好的识别模型步骤。可选的,所述网站信息还包括所述待识别网站的域名,在所述将所述网站标识输入至预先训练好的识别模型步骤之前,所述方法还包括:获取所述待识别网站的域名对应的目标数字签名;判断预设的非恶意数字签名中,是否存在与所述目标数字签名的相似度大于第一预设阈值的数字签名;如果预设的非恶意数字签名中,存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,判定所述待识别网站为恶意网站;如果预设的非恶意数字签名中,不存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,执行所述将所述网站标识输入至预先训练好的识别模型步骤。可选的,所述网站信息还包括所述待识别网站的网页图像,在所述将所述网站标识输入至预先训练好的识别模型步骤之前,所述方法还包括:获取所述待识别网站的网页图像对应的目标图像指纹;判断预设的非恶意图像指纹中,是否存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹;如果预设的非恶意图像指纹中,存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹,判定所述待识别网站为恶意网站;如果预设的非恶意图像指纹中,不存在所述目标图像指纹的相似度大于第二预设阈值的图像指纹,执行所述将所述网站标识输入至预先训练好的识别模型步骤。可选的,所述方法还包括:将所述待识别网站的识别结果发送至预设的终端,以使所述终端显示所述待识别网站的识别结果。第二方面,为了达到上述目的,本专利技术实施例公开了一种恶意网站的识别装置,所述装置包括:获取模块,用于获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;第一处理模块,用于将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对所述初始数据进行处理得到的;确定模块,用于根据所述识别模型的输出结果,确定所述待识别网站的识别结果。可选的,所述装置还包括:第二处理模块,用于判断所述对比网站中,是否存在与所述待识别网站的网站标识相同的网站;如果所述对比网站中存在与所述待识别网站的网站标识相同的网站,根据与所述待识别网站存在相同的网站标识的网站,确定所述待识别网站的识别结果;如果所述对比网站中不存在与所述待识别网站的网站标识相同的网站,触发所述第一处理模块。可选的,所述网站信息还包括所述待识别网站的域名,所述第二处理模块,还用于获取所述待识别网站的域名对应的目标数字签名;判断预设的非恶意数字签名中,是否存在与所述目标数字签名的相似度大于第一预设阈值的数字签名;如果预设的非恶意数字签名中,存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,判定所述待识别网站为恶意网站;如果预设的非恶意数字签名中,不存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,触发所述第一处理模块。可选的,所述网站信息还包括所述待识别网站的网页图像,所述第二处理模块,还用于获取所述待识别网站的网页图像对应的目标图像指纹;判断预设的非恶意图像指纹中,是否存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹;如果预设的非恶意图像指纹中,存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹,判定所述待识别网站为恶意网站;如果预设的非恶意图像指纹中,不存在所述目标图像指纹的相似度大于第二预设阈值的图像指纹,触发所述第一处理模块。可选的,所述装置还包括:发送模块,用于将所述待识别网站的识别结果发送至预设的终端,以使所述终端显示所述待识别网站的识别结果。在本专利技术实施的又一方面,为了达到上述目的,本专利技术实施例公开了一种终端,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一所述的方法步骤。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。在本专利技术实施的又一方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的方法步骤。本专利技术实施例提供的一种恶意网站的识别方法和装置,可以获取待识别网站的网站信息,网站信息包括待识别网站的网站标识,将网站标识输入至预先训练好的识别模型,识别模型为根据初始数据和过采样数据进行训练得到的,初始数据包括预设的对比网站的网站标识,对比网站包括预设的恶意网站和预设的非恶意网站,过采样数据为根据预设的过采样算法对初始数据进行处理得到的,根据识别模型的输出结果,确定待识别网站的识别结果。基于上述处理,可以平衡训练数据,提高识别模型的识别精度,进而提高恶意网站识别的准确度。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现本文档来自技高网...

【技术保护点】
1.一种恶意网站的识别方法,其特征在于,所述方法包括:获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对所述初始数据进行处理得到的;根据所述识别模型的输出结果,确定所述待识别网站的识别结果。

【技术特征摘要】
1.一种恶意网站的识别方法,其特征在于,所述方法包括:获取待识别网站的网站信息,其中,所述网站信息包括所述待识别网站的网站标识;将所述网站标识输入至预先训练好的识别模型,其中,所述识别模型为根据初始数据和过采样数据进行训练得到的,所述初始数据包括预设的对比网站的网站标识,所述对比网站包括预设的恶意网站和预设的非恶意网站,所述过采样数据为根据预设的过采样算法对所述初始数据进行处理得到的;根据所述识别模型的输出结果,确定所述待识别网站的识别结果。2.根据权利要求1所述的方法,其特征在于,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:判断所述对比网站中,是否存在与所述待识别网站的网站标识相同的网站;如果所述对比网站中存在与所述待识别网站的网站标识相同的网站,根据与所述待识别网站存在相同的网站标识的网站,确定所述待识别网站的识别结果;如果所述对比网站中不存在与所述待识别网站的网站标识相同的网站,执行所述将所述网站标识输入至预先训练好的识别模型步骤。3.根据权利要求2所述的方法,其特征在于,所述网站信息还包括所述待识别网站的域名,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:获取所述待识别网站的域名对应的目标数字签名;判断预设的非恶意数字签名中,是否存在与所述目标数字签名的相似度大于第一预设阈值的数字签名;如果预设的非恶意数字签名中,存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,判定所述待识别网站为恶意网站;如果预设的非恶意数字签名中,不存在与所述目标数字签名的相似度大于第一预设阈值的数字签名,执行所述将所述网站标识输入至预先训练好的识别模型步骤。4.根据权利要求2或3所述的方法,其特征在于,所述网站信息还包括所述待识别网站的网页图像,在所述将所述网站标识输入至预先训练好的识别模型之前,所述方法还包括:获取所述待识别网站的网页图像对应的目标图像指纹;判断预设的非恶意图像指纹中,是否存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹;如果预设的非恶意图像指纹中,存在与所述目标图像指纹的相似度大于第二预设阈值的图像指纹,判定所述待识别网站为恶意网站;如果预设的非恶意图像指纹中,不存在所述目标图像指纹的相似度大于第二预设阈值的图像指纹,执行所述将所述网站标识输入至预先训练好的识别模型步骤。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述待...

【专利技术属性】
技术研发人员:李小勇张家桦李继蕊苑洁高云全
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1