恶意网站识别方法和系统技术方案

技术编号:15898964 阅读:96 留言:0更新日期:2017-07-28 21:39
本发明专利技术涉及一种恶意网站识别方法和系统,所述方法包括:确定待识别网站;根据特征库,获取所述待识别网站的待识别地址特征、待识别内容特征和待识别全域特征,将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度;当所述恶意网站匹配度大于恶意网站识别阈值时,确定所述待识别网站为恶意网站。本发明专利技术可自动快速的从恶意网站可能存在的所有方面进行自动设别,并能按照不同的恶意网站识别模型进行有针对性的识别,提高了恶意网站的识别效率和针对性。

【技术实现步骤摘要】
恶意网站识别方法和系统
本专利技术涉及恶意网站识别领域,特别是涉及恶意网站识别方法和系统。
技术介绍
随着互联网技术的发展以及机器学习技术逐步普及,自动化技术在互联网安全领域的攻防双方都得到了充分地利用。恶意网站和携带恶意的页面亦使用自动化技术进行自我伪装、自我复制、自我散播。恶意网站网页识别技术提升的同时,恶意网站的生成技术也在逐步升级。操作系统、浏览器、防火墙等软件修正了部分安全漏洞,防范了部分安全威胁,其新增功能极大地方便了用户的日常生活、工作生活、金融方式等,但新增功能也同时暴露了新漏洞,引来了使用新型技术的新威胁,导致网站使用新增功能的同时,引入了恶意代码,使升级后的网页成为恶意网页。如何提升恶意网站识别的自动化处理效率,成为网站安全
亟待解决的问题。
技术实现思路
专利技术实施例提供一种恶意网站识别方法和系统,可以提高恶意网站识别的处理效率。所述方法包括:确定待识别网站;根据特征库,获取所述待识别网站的待识别地址特征、待识别内容特征和待识别全域特征,所述特征库为根据网站提取的地址特征、页面内容特征和全域特征的集合;将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度,所述恶意模型包括根据恶意地址特征、恶意内容特征、恶意全域信息,以及所述恶意地址特征权重值、所述恶意内容特征权重值和所述恶意全域信息权重值获取的模型;当所述恶意网站匹配度大于恶意网站识别阈值时,确定所述待识别网站为恶意网站。在其中一个实施例中,所述待识别地址特征,包括:地址长度向量、地址数量向量和地址结构向量其中的一种或任意组合,其中:所述地址长度向量包括地址长度、域名长度、子域名长度、路径总长度和参数总长度中的其中一种或任意组合;所述地址数量向量包括地址字符数量、地址字符数量、子域名数量和特殊符号数量、指定字符集数量和参数内指定字符数量中的其中一种或任意组合;所述地址结构向量包括用户名存在标识、密码存在标识、协议使用标识、域名结构标识中的其中一种或任意组合。在其中一个实施例中,所述待识别内容特征,包括:标签向量和/或属性向量,其中:所述标签向量包括标签内容长度、标签内保护目标特征关键词数量、标签图像资源、标签数量、标签内特征关键字频率中的其中一种或任意组合;所述属性向量包括属性数量、属性外链数量、属性外链域名、属性长度、隐藏属性数量中的其中一种或任意组合。在其中一个实施例中,所述待识别全域特征,包括:IP向量、域名记录向量和证书记录向量其中的一种或任意组合,其中:所述IP向量包括IP恶意标识、IP恶意关联标识、IP恶意段数量中的其中一种或任意组合;所述域名记录向量包括域名恶意记录标识、域名所有人恶意标识、域名注册时间中的其中一种或任意组合;所述证书记录向量包括证书所有人记录、证书注册时间、证书可信度中的其中一种或任意组合。在其中一个实施例中,所述将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度,还包括:分别将所述待识别地址特征和恶意地址子模型进行计算,将所述待识别内容特征和恶意内容特征子模型进行计算,将所述待识别全域特征和恶意全域特征子模型进行计算,分别获取恶意地址匹配度、恶意内容匹配度和恶意全域匹配度;将所述恶意地址匹配度、所述恶意内容匹配度和所述恶意全域匹配度和所述恶意模型进行计算,获取恶意网站匹配度,其中,所述恶意模型还包括:根据恶意地址匹配度、恶意内容匹配度和恶意全域匹配度以及所述恶意地址匹配度权重值、恶意内容匹配度权重值和恶意全域匹配度权重值获取的模型。在其中一个实施例中,所述恶意模型,包括:根据恶意地址特征、恶意内容特征、恶意全域信息和预设的期望识别模型,利用机器学习算法,分别获取所述恶意地址特征的恶意地址特征权重值、所述恶意内容特征的恶意内容特征权重值、所述恶意全域信息的恶意全域信息权重值,所述预设的期望识别模型为期望识别出的恶意网站的组合;根据所述恶意地址特征、所述恶意内容特征、所述恶意全域信息,以及所述恶意地址特征权重值、所述恶意内容特征权重值和所述恶意全域信息权重值获取恶意模型。在其中一个实施例中,根据预设的特征库,提取待识别网站的待识别地址特征、待识别内容特征和待识别全域特征,将上述待识别特征与恶意模型进行计算后,获取恶意网站匹配度,并将所述恶意网站匹配度和预设的恶意网站识别阈值进行比较后,确定所述待识别网站是否为恶意网站。通过对页面地址特征、页面内容特征和页面全域特征进行的提取,与预先设定的根据不同的识别需求构建的恶意特征识别进行计算的方法,本专利技术可自动快速的从恶意网站可能存在的所有方面进行自动设别,并能按照不同的恶意网站识别模型进行有针对性的识别,提高了恶意网站的识别效率和针对性。在其中一个实施例中,所述待识别地址特征,包括了地址长度向量、地址数量向量和地址结构向量其中的一种或任意组合,将所述待识别网站的地址特征进行了全方位的衡量,使得根据所述待识别地址特征识别出的恶意网站更加全面,提高了恶意网站的识别成功率。在其中一个实施例中,所述待识别内容特征,包括了标签向量和/或属性向量,将所述待识别网站的内容特征进行了全方位的衡量,使得根据所述待识别内容特征识别出的恶意网站更加全面,提高了恶意网站的识别成功率。在其中一个实施例中,所述待识别全域特征,包括了IP向量、域名记录向量和证书记录向量其中的一种或任意组合,将所述待识别网站的全域特征进行了全方位的衡量,使得根据所述待识别全域特征识别出的恶意网站更加全面,提高了恶意网站的识别成功率。在其中一个实施例中,在恶意模型内部,还设置有恶意地址子模型、恶意内容特征子模型和恶意全域特征子模型,用于分别对待识别地址特征、待识别内容特征和待识别全域特征进行计算,分别获取恶意地址匹配度、恶意内容匹配度和恶意全域匹配度后在获取整个恶意模型的恶意匹配度。由于分别设置了恶意地址特征子模型、恶意内容特征子模型和恶意全域特征子模型,可以分别针对恶意地址、恶意内容和恶意全域信息进行更有针对性的恶意匹配度的计算,从而使得恶意网站的识别效率更高。在其中一个实施例中,所述恶意地址子模型、恶意内容特征子模型和恶意全域特征子模型,分别根据预设的期望识别模型,利用机器学习算法,分别获取各自的权重值后构建而成。因此所述三个子模型的构建过程,根据不同的恶意网站识别需求,进行机器学习算法,提高了恶意网站识别的针对性、提高了恶意网站的识别效率以及准确率。本专利技术还提供一种恶意网站识别系统,包括:待识别网站确定模块,用于确定待识别网站;特征获取模块,用于根据特征库,获取所述待识别网站的待识别地址特征、待识别内容特征和待识别全域特征,所述特征库为根据网站提取的地址特征、页面内容特征和全域特征的集合;恶意网站匹配度获取模块,用于将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度,所述恶意模型包括根据恶意地址特征、恶意内容特征、恶意全域信息,以及所述恶意地址特征权重值、所述恶意内容特征权重值和所述恶意全域信息权重值获取的模型;恶意网站确定模块,用于当所述恶意网站匹配度大于恶意网站识别阈值时,确定所述待识别网站为恶意网站。在其中一个实施例中,所述待识别地址特征,包括:本文档来自技高网...
恶意网站识别方法和系统

【技术保护点】
一种恶意网站识别方法,其特征在于,所述方法包括:确定待识别网站;根据特征库,获取所述待识别网站的待识别地址特征、待识别内容特征和待识别全域特征,所述特征库为根据网站提取的地址特征、页面内容特征和全域特征的集合;将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度,所述恶意模型包括根据恶意地址特征、恶意内容特征、恶意全域信息,以及所述恶意地址特征权重值、所述恶意内容特征权重值和所述恶意全域信息权重值获取的模型;当所述恶意网站匹配度大于恶意网站识别阈值时,确定所述待识别网站为恶意网站。

【技术特征摘要】
1.一种恶意网站识别方法,其特征在于,所述方法包括:确定待识别网站;根据特征库,获取所述待识别网站的待识别地址特征、待识别内容特征和待识别全域特征,所述特征库为根据网站提取的地址特征、页面内容特征和全域特征的集合;将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度,所述恶意模型包括根据恶意地址特征、恶意内容特征、恶意全域信息,以及所述恶意地址特征权重值、所述恶意内容特征权重值和所述恶意全域信息权重值获取的模型;当所述恶意网站匹配度大于恶意网站识别阈值时,确定所述待识别网站为恶意网站。2.根据权利要求1所述的恶意网站识别方法,其特征在于,所述待识别地址特征,包括:地址长度向量、地址数量向量和地址结构向量其中的一种或任意组合,其中:所述地址长度向量包括地址长度、域名长度、子域名长度、路径总长度和参数总长度中的其中一种或任意组合;所述地址数量向量包括地址字符数量、地址字符数量、子域名数量和特殊符号数量、指定字符集数量和参数内指定字符数量中的其中一种或任意组合;所述地址结构向量包括用户名存在标识、密码存在标识、协议使用标识、域名结构标识中的其中一种或任意组合。3.根据权利要求1所述的恶意网站识别方法,其特征在于,所述待识别内容特征,包括:标签向量和/或属性向量,其中:所述标签向量包括标签内容长度、标签内保护目标特征关键词数量、标签图像资源、标签数量、标签内特征关键字频率中的其中一种或任意组合;所述属性向量包括属性数量、属性外链数量、属性外链域名、属性长度、隐藏属性数量中的其中一种或任意组合。4.根据权利要求1所述的恶意网站识别方法,其特征在于,所述待识别全域特征,包括:IP向量、域名记录向量和证书记录向量其中的一种或任意组合,其中:所述IP向量包括IP恶意标识、IP恶意关联标识、IP恶意段数量中的其中一种或任意组合;所述域名记录向量包括域名恶意记录标识、域名所有人恶意标识、域名注册时间中的其中一种或任意组合;所述证书记录向量包括证书所有人记录、证书注册时间、证书可信度中的其中一种或任意组合。5.根据权利要求1所述的恶意网站识别方法,其特征在于,所述将所述待识别地址特征、所述待识别内容特征、所述待识别全域特征和恶意模型进行计算,获取恶意网站匹配度,还包括:分别将所述待识别地址特征和恶意地址子模型进行计算,将所述待识别内容特征和恶意内容特征子模型进行计算,将所述待识别全域特征和恶意全域特征子模型进行计算,分别获取恶意地址匹配度、恶意内容匹配度和恶意全域匹配度;将所述恶意地址匹配度、所述恶意内容匹配度和所述恶意全域匹配度和所述恶意模型进行计算,获取恶意网站匹配度,其中,所述恶意模型还包括:根据恶意地址匹配度、恶意内容匹配度和恶意全域匹配度以及所述恶意地址匹配度权重值、恶意内容匹配度权重值和恶意全域匹配度权重值获取的模型。6.根据权利要求1所述的恶意网站识别方法,其特征在于,所述恶意模型,包括:根据恶意地址特征、恶意内容特征、恶意全域信息和预设的期望识别模型,利用机器学习算法,分别获取所述恶意地址特征的恶意地址特征权重值、所述恶意内容特征的恶意内容特征权重值、所述恶意全域信息的恶意全域信息权重值,所述预设的期望识别模型为期望识别出的恶意网站的组合;根据所述恶意地址特征、所述恶意内容特征、所述恶意全域信息,以及所述恶意地址特征权重值、所述恶意内容特...

【专利技术属性】
技术研发人员:郑东李丰初
申请(专利权)人:北京瑞星信息技术股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1