System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质技术方案_技高网

基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质技术方案

技术编号:41287262 阅读:8 留言:0更新日期:2024-05-11 09:35
基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质,其方法为:首先获取网站内容的多模态数据集;其次用获取的数据集构建基于SEResNet‑Transformer的网站敏感图像内容分类模型;然后构建基于多模态特征融合的网站敏感内容分类模型;最后根据多模态特征融合的网站敏感内容分类模型获取网站敏感内容分类结果;其系统、设备及介质基于多模态特征融合对网站敏感内容进行分类;本发明专利技术利用SEResNet提取的初步特征中包含了局部特征,降低整体模型的计算参数;再通过Transformer模块利用自注意力机制学习图像的全局信息,提升非法图像分类的准确率;使用多模态特征融合,将非法网站上的文本信息特征与图像信息特征结合成一个全局的特征向量,提高分类的准确率。

【技术实现步骤摘要】

本专利技术属于图像处理分析,尤其涉及一种基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质


技术介绍

1、用户使用互联网的终端主要分为移动应用端与网页端,移动互联网应用蓬勃发展,国内市场上监测到的活跃app数量达260万款,进一步覆盖网民日常学习、工作、生活,万物互联基础不断夯实。在网页端,我国目前的网站数量约为387万个,虽然呈现逐年下降的趋势,但仍然有许多网络服务是通过网站提供的。网站数量逐年下降的现象体现了背后管理运维人员的下降,甚至有的网站已经被放弃使用但是并未被注销。这导致了数量庞大的缺少维护网站被非法利用,篡改成非法网站。同时,存在数量庞大的境外非法网站,由于服务器位于境外,进一步加大了对其处理的难度与对社会造成的危害。

2、在日常校园网站的维护过程中发现以下现象:原有的合法域名链接,在使用过程中,已经被广泛发布在校内网的网站上,当这些合法域名例如国际会议域名www.****.org等,在完成使命或者网站服务后,注册人不再续费,就会被一些人非法重新注册,用于非法网站,利用高校网站推广非法网站,损害了教育机构的正面形象,影响十分恶劣。一旦被域名被非法网站利用,电信安全部门检测到后,就要求立即清理,否则切断学校电信出口,管理员工作很被动。目前只能电信发现一个非法域名管理员手动处理一个。为了更加深入和全面地主动维护校园网络环境,有必要提出一个能准确检测非法网站的方法,主动发现存在于学校网站页面上的非法网站。

3、与本专利技术最相近的实现方案有ying liu等人在2021年提出了一种基于图卷积网络模型(graph convolutional network,gcn)的敏感信息检测方法。该方法应用预训练模型对给定文档和语料库中的关键字进行编码。其次,应用图注意力网络来提取结构和文本信息,将这些信息用于形成分类。本方法只针对网站中的文本信息进行敏感信息检测。

4、其他实现方案还有junren chen等人在2020年提出了一种基于视觉注意机制的深度单分类算法(docaporn)用于识别非法图像。基于深度学习的单分类,可以避免由于只识别目标物体而导致的负样本类型无限多的问题。从而避免了负样本不足的问题。此外,将视觉注意力机制引入深度单分类,使神经网络更专注于目标对象。提出的方法提高了对图像进行非法信息识别的准确率。但本方法只针对非法敏感内容图片有较好的分类效果,并且单纯使用注意力机制会缺乏对局部信息的关注。

5、公开号为cn107862050a、名称为一种网站内容安全检测系统及方法的专利申请,通过爬取网页的图像信息作为分类依据,通过fpga硬件加速器加速训练图像分类模型。实现快速且准确的网站内容安全检测目的。但本方法只针对网站中的图像内容进行分类存在局限性。


技术实现思路

1、为了克服上述现有技术的不足,本专利技术的目的在于提出基于多模态特征融合的网站敏感内容分类方法、系统、设备及介质,利用seresnet提取的初步特征中包含了局部特征,降低整体模型的计算参数;再通过transformer模块,利用自注意力机制学习图像的全局信息,提升非法图像分类的准确率;使用多模态特征融合,将非法网站上的文本信息特征与图像信息特征结合成一个全局的特征向量,提高了分类的准确率。

2、为了实现上述目的,本专利技术采用的技术方案如下:

3、一种基于多模态特征融合的网站敏感内容分类方法,具体包括以下步骤:

4、步骤1,获取网站内容的多模态数据集;

5、步骤2,根据步骤1获取的数据集构建基于seresnet-transformer的网站敏感图像内容分类模型;

6、步骤3,根据步骤1得到的多模态数据集与步骤2的基于seresnet-transformer的网站敏感图像内容分类模型,构建基于多模态特征融合的网站敏感内容分类模型;

7、步骤4,将在步骤1构建的网站内容的多模态数据集输入步骤3构建的基于多模态特征融合的网站敏感内容分类模型中,获取网站敏感内容分类结果。

8、所述步骤1的具体方法为:

9、步骤1.1数据采集

10、步骤1.1a中文文本内容采集

11、首先,使用自动化测试工具模拟浏览器访问该网页的过程,在向下滚动网页页面的过程中等待网页完成渲染与脚本加载完成,之后,再进行采集网页html源代码,获得网页实际显示的内容的html源代码;再采用正则表达式匹配的方法采集中文文本内容;

12、步骤1.1b图像数据的采集

13、根据html源代码中<img>标签中的src属性或data-origin属性提取页面内的图片内容;

14、步骤1.2数据处理

15、步骤1.2a文本内容的数据处理:

16、使用python的jieba分词库对网页文本数据进行分词,对分词后的结果进行停用词挖掘,获得一个高频出现却与网页实际内容无关的网页文本数据特有的停用词表;得到网页文本数据特有的停用词表后,对分词的结果删除其中的停用词;

17、步骤1.2b图像内容的数据处理:

18、首先,筛选出以jpg、jpeg、png与gif后缀结尾的图像文件,剔除其他格式错误的图像文件;

19、其次,选择剔除高度与宽度均低于像素阈值的图片;对gif格式动图先解码为一系列帧,再逐帧转换为jpg格式的文件,并对图像进行统一大小的缩放;获得网站的文本模态与图像模态的数据集。

20、所述网页文本数据停用词挖掘过程为:首先,将使用python的jieba分词库对网页文本数据进行分词后的每个词使用tf-idf(term frequency-inverse documentfrecuency,逆文档频率)进行编码;tf-idf编码用于评估一个词语在一个文本数据集中的重要性,即一个词语的在一个文档中出现的次数越多越重要,但一个词语出现在一个数据集的越多文档中,这个词语重要性反而下降;据此,将每个词语的tf-idf编码值从低到高排序,即按每个词语在数据集中的重要性从低到高排列,截取前n(n≥100)个词语即获得一个高频出现却与网页实际内容无关的网页文本数据特有的停用词表,得到网页文本数据特有的停用词表后,对分词的结果删除其中的停用词。

21、所述步骤2具体包括以下步骤:

22、步骤2.1,构建基于seresnet模型的初步特征提取模块:

23、首先,将resnet-50作为骨干网络的结构进行改进,以调整输出的特征向量维度;

24、然后,利用包括压缩和激励部分的se模块进行压缩操作:将特征向量尺寸用h*w表示,特征向量通道数为c,则se模块压缩部分的公式如下:

25、

26、其中,uc为每个尺寸为h*w的特征向量通道,经过全局平均池化操作后得到尺寸为1*1的zc像素点;一个h*w*c的特征向量经过压缩操作后得到1*1*c的特征向量;

27本文档来自技高网...

【技术保护点】

1.一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述步骤1的具体方法为:

3.根据权利要求2所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述网页文本数据停用词挖掘过程为:首先,将使用Python的jieba分词库对网页文本数据进行分词后的每个词使用TF-IDF(Term Frequency-Inverse Document Frecuency,逆文档频率)进行编码;TF-IDF编码用于评估一个词语在一个文本数据集中的重要性,即一个词语的在一个文档中出现的次数越多越重要,但一个词语出现在一个数据集的越多文档中,这个词语重要性反而下降;据此,将每个词语的TF-IDF编码值从低到高排序,即按每个词语在数据集中的重要性从低到高排列,截取前n(n≥100)个词语即获得一个高频出现却与网页实际内容无关的网页文本数据特有的停用词表,得到网页文本数据特有的停用词表后,对分词的结果删除其中的停用词。

4.根据权利要求1所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述步骤2具体包括以下步骤:

5.根据权利要求4所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述ResNet-50骨干网络结构改进的方法为:将ResNet-50网络中的Stage-1重复堆叠3次,Stage-2重复堆叠4次,Stage-3重复堆叠9次,下采样率设置为16。

6.根据权利要求1所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述步骤3的具体方法为:

7.根据权利要求1所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述步骤4具体方法为:

8.一种基于多模态特征融合的网站敏感内容分类系统,其特征在于,包括:

9.一种基于多模态特征融合的网站敏感内容分类的电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,使得所述处理器执行权利要求1至7任意一项所述多模态特征融合的网站敏感内容分类的方法。

10.一种接收用户输入程序存储介质,其特征在于,所存储的计算机程序被处理器执行时能够基于权利要求1至7任一项所述的多模态特征融合的网站敏感内容分类的方法,基于多模态特征融合对网站敏感内容进行分类。

...

【技术特征摘要】

1.一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,具体包括以下步骤:

2.根据权利要求1所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述步骤1的具体方法为:

3.根据权利要求2所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所述网页文本数据停用词挖掘过程为:首先,将使用python的jieba分词库对网页文本数据进行分词后的每个词使用tf-idf(term frequency-inverse document frecuency,逆文档频率)进行编码;tf-idf编码用于评估一个词语在一个文本数据集中的重要性,即一个词语的在一个文档中出现的次数越多越重要,但一个词语出现在一个数据集的越多文档中,这个词语重要性反而下降;据此,将每个词语的tf-idf编码值从低到高排序,即按每个词语在数据集中的重要性从低到高排列,截取前n(n≥100)个词语即获得一个高频出现却与网页实际内容无关的网页文本数据特有的停用词表,得到网页文本数据特有的停用词表后,对分词的结果删除其中的停用词。

4.根据权利要求1所述的一种基于多模态特征融合的网站敏感内容分类方法,其特征在于,所...

【专利技术属性】
技术研发人员:李泽昊李隐峰张莫北郑春红普雪鸥和子豪郭秦杰王馨浩陶用箭陈文举李瑞瑞李宇凡
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1