System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 非法网站识别方法、装置、设备及存储介质制造方法及图纸_技高网

非法网站识别方法、装置、设备及存储介质制造方法及图纸

技术编号:40776312 阅读:5 留言:0更新日期:2024-03-25 20:22
本申请涉及智能监控领域,其具体地公开了一种非法网站识别方法、装置、设备及存储介质,其采用基于深度神经网络模型的人工智能技术,获取网站的文本内容和网站的图片,通过提取网站的文本局部特征并排列可以更好地理解网站内容的整体语义,通过显著性网络检测器和深度卷积神经网络模型获得网站图片的重要特征,融合后以得到用于表示该网站是否是非法网站的分类结果。通过该方法可以实现对网站的非法性进行判断和分类,进而提供一个自动化的方法来辅助判断网站是否是非法的。

【技术实现步骤摘要】

本申请涉及智能识别领域,且更为具体地,涉及一种非法网站识别方法、装置、设备及存储介质


技术介绍

1、非法网站指的是违反法律法规或道德准则的网站,其内容可能涉及诈骗、色情、赌博、盗版、恶意软件传播等违法活动。

2、非法网站可能存在恶意软件、钓鱼网站等网络安全威胁,访问这些网站可能导致个人信息泄露、计算机感染病毒等风险。可能涉及诈骗、假冒商品销售等活动,给用户和企业带来经济损失。还可能涉及违法活动,如赌博、毒品交易等,对社会秩序和稳定造成威胁。识别非法网站可以帮助用户避免访问可能存在安全风险的网站,保护个人信息和财产安全,可以减少网络犯罪活动,维护网络环境的健康和秩序,维护社会稳定和公共安全。

3、但随着互联网规模的不断扩大,人工审核所有网站变得困难且耗时,无法满足大规模的检测需求。而且非法网站的形式和内容多样化,不断变化和更新,传统方法很难适应这种多样性和时效性的挑战。因此,期待一种优化的非法网站识别方案。


技术实现思路

1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种非法网站识别方法、装置、设备及存储介质,其采用基于深度神经网络模型的人工智能技术,获取网站的文本内容和网站的图片,通过提取网站的文本局部特征并排列可以更好地理解网站内容的整体语义,通过显著性网络检测器和深度卷积神经网络模型获得网站图片的重要特征,融合后以得到用于表示该网站是否是非法网站的分类结果。通过该方法可以实现对网站的非法性进行判断和分类,进而提供一个自动化的方法来辅助判断网站是否是非法的。

2、根据本申请的一方面,提供了一种非法网站识别方法,其包括:

3、获取网站的文本内容和网站的图片;

4、将所述网站的文本内容通过包含词嵌入层的上下文编码模型以得到多个网站文本局部特征向量;

5、将所述多个网站文本局部特征向量进行二维排列以得到网站文本全局语义特征矩阵;

6、将所述网站的图片进行预处理后通过显著性网络检测器以得到网站图片特征图;

7、将所述网站图片特征图通过包含混合卷积层的深度卷积神经网络模型以得到网站图片特征矩阵;

8、计算所述网站文本全局语义特征矩阵和所述网站图片特征矩阵进行基于相对于目标分类函数的平滑隐特征表达的融合以得到网站内容特征矩阵;

9、将所述网站内容特征矩阵通过分类器以得到分类结果,所述分类结果用于表示该网站是否是非法网站。

10、在上述非法网站识别方法中,将所述网站的文本内容通过包含词嵌入层的上下文编码模型以得到多个网站文本局部特征向量,包括:对所述网站的文本内容进行分词处理以将所述网站的文本内容转化为由多个词组成的网站文本词序列;使用所述包含词嵌入层的上下文编码模型的嵌入层分别将所述网站文本词序列中各个词映射为词嵌入向量以得到网站文本词嵌入向量的序列;以及,使用所述包含词嵌入层的上下文编码模型的转换器对所述网站文本词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到所述多个网站文本局部特征向量。

11、在上述非法网站识别方法中,使用所述包含词嵌入层的上下文编码模型的转换器对所述网站文本词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到所述多个网站文本局部特征向量,包括:将所述网站文本词嵌入向量的序列进行二维排列以得到网站文本全局特征向量;计算所述网站文本全局特征向量与所述网站文本词嵌入向量的序列中各个向量的转置向量之间的乘积以得到多个网站自注意力关联矩阵;分别对所述多个网站自注意力关联矩阵中各个网站自注意力关联矩阵进行标准化处理以得到多个标准化后网站自注意力关联矩阵;将所述多个标准化后网站自注意力关联矩阵中各个标准化后网站自注意力关联矩阵通过softmax分类函数以得到多个概率值;以及,分别以所述多个概率值中各个概率值作为权重对所述网站文本词嵌入向量的序列中各个向量进行加权以得到所述多个网站文本局部特征向量。

12、在上述非法网站识别方法中,将所述网站的图片进行预处理后通过显著性网络检测器以得到网站图片特征图,包括:使用所述包含显著性网络检测器的卷积神经网络模型的各层在层的正向传递中分别对输入数据进行:使用第一卷积核对所述输入数据进行卷积处理以得到第一卷积特征图;使用第二卷积核对所述第一卷积特征图进行卷积处理以得到第二卷积特征图,其中,所述第一卷积核的尺寸大于所述第二卷积核的尺寸;对所述第二卷积特征图进行池化处理以得到池化特征图;以及,对所述池化特征图进行激活处理以得到激活特征图;其中,所述显著性网络检测器的最后一层的输出为所述网站图片特征图,所述显著性网络检测器的第一层的输入为所述网站的图片。

13、在上述非法网站识别方法中,将所述网站图片特征图通过包含混合卷积层的深度卷积神经网络模型以得到网站图片特征矩阵,包括:所述第一卷积神经网络模型的各个混合卷积层包括并行的第一卷积分支结构、第二卷积分支结构、第三卷积分支结构和第四卷积分支结构,以及,与所述第一至第四卷积分支结构连接的多尺度融合结构,其中,所述第一卷积分支使用具有第一尺寸的第一卷积核,所述第二卷积分支使用具有第一尺寸且具有第一空洞率的第二卷积核、所述第三卷积分支使用具有第一尺寸且具有第二空洞率的第三卷积核、所述第四卷积分支使用具有第一尺寸且具有第三空洞率的第四卷积核。

14、根据本申请的另一方面,提供了一种非法网站识别装置,其包括:

15、网站信息获取模块,用于获取网站的文本内容和网站的图片;

16、文本信息编码模块,用于将所述网站的文本内容通过包含词嵌入层的上下文编码模型以得到多个网站文本局部特征向量;

17、局部特征二维排列模块,用于将所述多个网站文本局部特征向量进行二维排列以得到网站文本全局语义特征矩阵;

18、图片特征提取模块,用于将所述网站的图片进行预处理后通过显著性网络检测器以得到网站图片特征图;

19、特征混合卷积模块,用于将所述网站图片特征图通过包含混合卷积层的深度卷积神经网络模型以得到网站图片特征矩阵;

20、网站信息融合模块,用于计算所述网站文本全局语义特征矩阵和所述网站图片特征矩阵进行基于相对于目标分类函数的平滑隐特征表达的融合以得到网站内容特征矩阵;

21、非法判别模块,用于将所述网站内容特征矩阵通过分类器以得到分类结果,所述分类结果用于表示该网站是否是非法网站。

22、根据本申请的另一方面,还提供了一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述的非法网站识别方法。

23、根据本申请的另一方面,还提供了一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述非法网站识别方法的步骤。

24、与现有技术相比,本申请提供的一种非法网站识别方法、装置、设备及存储介质,其采用基于深度神经网络本文档来自技高网...

【技术保护点】

1.一种非法网站识别方法,其特征在于,包括:

2.根据权利要求1所述的非法网站识别方法,其特征在于,将所述网站的文本内容通过包含词嵌入层的上下文编码模型以得到多个网站文本局部特征向量,包括:

3.根据权利要求2所述的非法网站识别方法,其特征在于,使用所述包含词嵌入层的上下文编码模型的转换器对所述网站文本词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到所述多个网站文本局部特征向量,包括:

4.根据权利要求3所述的非法网站识别方法,其特征在于,将所述网站的图片进行预处理后通过显著性网络检测器以得到网站图片特征图,包括:

5.根据权利要求4所述的非法网站识别方法,其特征在于,将所述网站图片特征图通过包含混合卷积层的深度卷积神经网络模型以得到网站图片特征矩阵,包括:

6.根据权利要求5所述的非法网站识别方法,其特征在于,将所述网站图片特征图通过包含混合卷积层的深度卷积神经网络模型以得到网站图片特征矩阵,包括:

7.根据权利要求6所述的非法网站识别方法,其特征在于,计算所述网站文本全局语义特征矩阵和所述网站图片特征矩阵进行基于相对于目标分类函数的平滑隐特征表达的融合以得到网站内容特征矩阵,用于:

8.一种非法网站识别装置,其特征在于,包括:

9.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的非法网站识别方法。

10.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述非法网站识别方法的步骤。

...

【技术特征摘要】

1.一种非法网站识别方法,其特征在于,包括:

2.根据权利要求1所述的非法网站识别方法,其特征在于,将所述网站的文本内容通过包含词嵌入层的上下文编码模型以得到多个网站文本局部特征向量,包括:

3.根据权利要求2所述的非法网站识别方法,其特征在于,使用所述包含词嵌入层的上下文编码模型的转换器对所述网站文本词嵌入向量的序列进行基于转换器思想的全局上下文语义编码以得到所述多个网站文本局部特征向量,包括:

4.根据权利要求3所述的非法网站识别方法,其特征在于,将所述网站的图片进行预处理后通过显著性网络检测器以得到网站图片特征图,包括:

5.根据权利要求4所述的非法网站识别方法,其特征在于,将所述网站图片特征图通过包含混合卷积层的深度卷积神经网络模型以得到网站图片特征矩阵,包括:

<...

【专利技术属性】
技术研发人员:何泽刚
申请(专利权)人:菏泽泽刚网络科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1