一种在线智能识别违规恶意网站的方法技术

技术编号:37962949 阅读:11 留言:0更新日期:2023-06-30 09:38
本发明专利技术公开了一种在线智能识别违规恶意网站的方法,包括第一步,采集域名数据源、第二步,解析域名数据和第三步,对域名数据进行处理;述域名数据的处理方式包括过程一,向系统报告疑似网站、过程二,向卷积神经网络中输入特征和过程三,对特征化数据进行处理,所述特征化数据的处理通过卷积神经网络进行。本发明专利技术在进行数据处理时,通过输入层输入到卷积神经网络模型中,同时在卷积神经网络模型的卷积层中,对于卷积核中若有元素存在权重系数和偏差量在同一范围内,则进行元素合并和剔除,只保留首端和末端元素,此时进行数据处理时,数据的处理量大大下降,提高了数据处理的速度。提高了数据处理的速度。提高了数据处理的速度。

【技术实现步骤摘要】
一种在线智能识别违规恶意网站的方法


[0001]本专利技术涉及电信行业网络安全
,特别涉及一种在线智能识别违规恶意网站的方法。

技术介绍

[0002]现在网络已走进千家万户,很多人的工作和生活都离不开网络,未来社会人人的生活和工作将越来越依赖于数字技术的发展,同时也带来了新的挑战,网络爆炸性的发展,网络环境也日益复杂和开放,同时各种各样的安全漏洞也暴露出来,恶意威胁和攻击日益增多,安全事件与日俱增,也让接触互联网络的每一个人都不同程度地受到了威胁。
[0003]现有技术方案使用基于URL的日志访问数据,通过URL特征识别提取技术进行违规恶意网站的识别与标注,URL数据来源于第三方数据采集设备DPI的实时或者离线上网日志数据报文,首先其采用数据采集设备DPI对数据进行采集,由于数据采集设备DPI不是针对采集用户上网日志数据报文的特点专门设计的,采集识别其他类型报文会影响采集用户上网日志数据报表的处理效率,其次,现有方案使用基于URL的日志访问数据,而HTTPS加密技术使得URL数据越来越难采集到,且现有技术方案通过URL特征识别提取技术进行违规恶意网站的识别与标注,无论是恶意网站黑名单,还是特征字符库都是基于历史离线数据分析获得,包括人工审核标注和OCR、NLP等人工智能方式标注,都无法实时更新形成自反馈系统,难以做到快速准确的判断违规恶意网站,因此,需要一种在线智能识别违规恶意网站的装置和方法。

技术实现思路

[0004]本专利技术的目的在于提供一种在线智能识别违规恶意网站的方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种在线智能识别违规恶意网站的方法,所述识别方法的实施包括以下几个步骤;第一步,采集域名数据源,所述域名数据源的采集是将域名数据采集解析模块部署在运营商移网的核心网网元设备上,通过域名数据采集解析模块对域名数据进行采集;第二步,解析域名数据,所述域名数据的解析是通过域名数据采集解析模块对采集的域名数据通过编程实现解析DNS协议报文,所述域名数据采集解析模块包括中转DNS服务器部,且所述中转DNS服务器部用于接收递归服务器的解析请求;第三步,对域名数据进行处理,所述域名数据的处理方式包括以下过程;过程一,向系统报告疑似网站,所述系统对疑似网站进行标记,同时进行特征化;过程二,向卷积神经网络中输入特征,所述输入到卷积神经网络中的特征为已知的数据特征;过程三,对特征化数据进行处理,所述特征化数据的处理通过卷积神经网络进行。
[0006]优选的,所述特征化数据的处理包括以下几个步骤;
S1:构建卷积神经网络,包括卷积层、激活函数层、层池化层和分类输出层;S2:利用卷积神经网络对输入的数据进行训练,得到每一层的神经网络训练参数;且所述神经网络训练参数包括权重参数和批量标准化参数;S3:构建硬件设备,包括神经网络参数存储模块、数据比对模块、卷积计算模块、池化层模块和输出模块,且将神经网络训练参数存入神经网络参数存储模块中;S4:定义卷积神经网络中的元素预设值,设置预设值用于确定元素的数量,设置预设值为K,且K取值范围为正整数,其值等于预设卷积神经网络的最后一卷积层中包含的元素的总数;S5:在进行卷积模型训练时,进行对比数据的设置、进行数据不断的迭代训练,直到得到最优的卷积神经网络参数,此时可以达到一个最佳的数据结果用于进行数据的比对。
[0007]优选的,所述特征化数据在进行数据处理时,通过神经网络参数存储模块中存储的神经网络训练参数,不同网站的数据通过输入层输入到卷积神经网络模型中,然后通过卷积神经网络形成多个特征,最后在通过输出层输出到存储模块。
[0008]优选的,在卷积神经网络模型的卷积层中,对于卷积核中若有元素存在权重系数和偏差量在同一范围内,则进行元素合并和剔除,只保留首端和末端元素,最后通过输出层输出数据,得到数据处理结果后,再输出数据处理结果。
[0009]优选的,设置元素的编号为j,元素的概率值为h,则预设值K为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);设置概率值为Q,设置概率区间为W,在进行概率值Q的确定时,Q为正整数;则预设卷积神经网络的输入层的网络参数为:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。
[0010]优选的,编号为K元素对应所有输入层中的值,其中:K=1,2,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);j=1,2,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4);Q1=1,2,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5);Q2=1,2,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);Q3=1,2,

,n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7);在进行元素的合并时,剔除W的交集部分。
[0011]优选的,随机选取j个编号元素输入预设卷积神经网络,获取所述预设卷积神经网络的中第n次输出的W结果,并将每一次输入神经网络的训练值再次输入到下次的输入层中,根据预设的关系式,生成该确定的元素值。
[0012]优选的,对于输出的数据处理结果,将现有的域名数据通过域名黑白灰名单管理模块划分为白名单、黑名单和灰名单,在接收到实时域名数据后,通过域名权限进行管理模块的归类。
[0013]优选的,所述白名单设置为信任域名,且给予永久生存期,同时用户访问永久通过,所述白名单包含主流网站的域名和其各种子域名,根据动静态内容分离的方式,将主流网站的各种图片、音视频域名也加入白名单,所述黑名单为违规恶意域名,用户访问禁止,所述黑名单包含违法违规及恶意网站域名、ISP服务商、域名注册商、域名联系人、IP及地理
位置,所述灰名单为没有发现违规问题的域名,给予有限生存期,暂时通过。
[0014]优选的,所述域名权限的管理由灰名单抽查模块和增量模块,所述灰名单抽查模块包括灰名单分类单元、随机提取单元、内容对比单元、内容提取单元和增量启动单元,且所述增量启动单元用于启动增量模块,所述灰名单分类单元用于将在阈值内的灰名单内的域名进行分类,所述随机提取单元用于随机按照相同数量提取位于灰名单分类单元内各类域名中的域名,所述内容对比单元用于对比提取后的域名与最后输出域名的图片数据和可视的文本数据是否有增加或者变化,所述内容提取单元用于将发生变化或者增加的图片数据和可视的文本数据进行提取。
[0015]本专利技术的技术效果和优点:本专利技术在域名数据处理前,向系统报告至少一个疑似网站,对疑似网站进行标记,同时进行特征化,然后将现有的特征输入到预设的卷积神经网络中,通过卷积神经网络对特征化数据进行处理,这样就更方便进行特征化数据的标记,使得后续的数据处理更加清晰有序,利用这样的方式也能够避免数据处理使得数据筛选错误,使得数据处理更加准确;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线智能识别违规恶意网站的方法,其特征在于,所述识别方法的实施包括以下几个步骤;第一步,采集域名数据源,所述域名数据源的采集是将域名数据采集解析模块部署在运营商移网的核心网网元设备上,通过域名数据采集解析模块对域名数据进行采集;第二步,解析域名数据,所述域名数据的解析是通过域名数据采集解析模块对采集的域名数据通过编程实现解析DNS协议报文,所述域名数据采集解析模块包括中转DNS服务器部,且所述中转DNS服务器部用于接收递归服务器的解析请求;第三步,对域名数据进行处理,所述域名数据的处理方式包括以下过程;过程一,向系统报告疑似网站,所述系统对疑似网站进行标记,同时进行特征化;过程二,向卷积神经网络中输入特征,所述输入到卷积神经网络中的特征为已知的数据特征;过程三,对特征化数据进行处理,所述特征化数据的处理通过卷积神经网络进行。2.根据权利要求1所述的一种在线智能识别违规恶意网站的方法,其特征在于,所述特征化数据的处理包括以下几个步骤;S1:构建卷积神经网络,包括卷积层、激活函数层、层池化层和分类输出层;S2:利用卷积神经网络对输入的数据进行训练,得到每一层的神经网络训练参数;且所述神经网络训练参数包括权重参数和批量标准化参数;S3:构建硬件设备,包括神经网络参数存储模块、数据比对模块、卷积计算模块、池化层模块和输出模块,且将神经网络训练参数存入神经网络参数存储模块中;S4:定义卷积神经网络中的元素预设值,设置预设值用于确定元素的数量,设置预设值为K,且K取值范围为正整数,其值等于预设卷积神经网络的最后一卷积层中包含的元素的总数;S5:在进行卷积模型训练时,进行对比数据的设置、进行数据不断的迭代训练,直到得到最优的卷积神经网络参数,此时可以达到一个最佳的数据结果用于进行数据的比对。3.根据权利要求2所述的一种在线智能识别违规恶意网站的方法,其特征在于,所述特征化数据在进行数据处理时,通过神经网络参数存储模块中存储的神经网络训练参数,不同网站的数据通过输入层输入到卷积神经网络模型中,然后通过卷积神经网络形成多个特征,最后在通过输出层输出到存储模块。4.根据权利要求3所述的一种在线智能识别违规恶意网站的方法,其特征在于,在卷积神经网络模型的卷积层中,对于卷积核中若有元素存在权重系数和偏差量在同一范围内,则进行元素合并和剔除,只保留首端和末端元素,最后通过输出层输出数据,得到数据处理结果后,再输出数据处理结果。5.根据权利要求2所述的一种在线智能识别违规恶意网站的方法,其特征在于,设置元素的编号为j,元素的概率值为h,则预设值K为:(1);设置概率值为Q,设置概率区间为W,在进行概率值Q的确定时,Q为正整数;则预设卷积神经网络的输入层...

【专利技术属性】
技术研发人员:闻喆邢晶裴亚明
申请(专利权)人:北京资采信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1