一种基于图文多模态的不良网站分类方法、系统及设备技术方案

技术编号:38936428 阅读:12 留言:0更新日期:2023-09-25 09:38
本发明专利技术涉及网络安全技术领域,具体涉及一种基于图文多模态的不良网站分类方法、系统及设备,对网页截图和网站meta标题进行特征提取和相似度计算,通过InfoNCE损失函数优化CLIP模型,采用基于本体的随机抽样进行CLIP模型训练,融合图、文两个模态的特征,根据融合的特征对不良网站进行分类,可以提高网站分类的准确性和覆盖率;采用小批量训练抽样方式,仅需要约1%的数据即可达到相似的训练效果,同时不需要人工标注大量的训练数据和大型的TPU计算机器,也不需要针对不同语言或主题设计特定的分类规则或词典,可以提高网站分类的效率和可实现性;可针对无法使用OCR技术分析出的图片进行分析和明确分类。行分析和明确分类。行分析和明确分类。

【技术实现步骤摘要】
一种基于图文多模态的不良网站分类方法、系统及设备


[0001]本专利技术涉及网络安全
,具体涉及一种基于图文多模态的不良网站分类方法、系统及设备。

技术介绍

[0002]信息技术和移动互联网的蓬勃发展,在方便了人们生活的同时,也需要我们对不良网站做出及时准确地识别,从而提前对接入用户作出预警。
[0003]现有的不良网站识别方法主要有两种,一种是采用基于网站文本内容的匹配技术,对网站的文本关键词进行匹配;另一种是根据网站的文本或图片单模态信息,构建深度学习分类模型来识别不良网站。这种根据网站的文本或图片单模态信息构建深度学习分类模型的方法,只考虑了图片或文本单一模态的信息,或者直接使用OCR技术抽取图片中的文本信息,对无文字信息的图片处理不足,而信息的载体包括文本、图像、视频、音频等,是多种多样的。现有的不良网站识别方法存在着识别效率不高、容易漏报的问题。
[0004]多模态学习通过建立多模态模型,融合图片和文本等多个模态的信息,使网络能够从多模态中学习各个模态的信息,从而提升模型的学习能力,获得更准确的结果。因此本专利技术提出一种基于图文多模态的不良网站分类方法、系统及设备,以解决现有技术中的问题。

技术实现思路

[0005]针对现有的不良网站分类方法中对无文字信息的图片处理不足,识别效率不高、容易漏报等问题,本专利技术提出一种基于图文多模态的不良网站分类方法、系统及设备。通过基于预训练图文模型的CLIP模型,提取不良网站截图和文本两个模态的信息,提取不良网站视觉特征及文字特征,融合图、文两个模态的特征,根据融合的特征对不良网站进行分类,可以在较少训练数据和较低的硬件要求的情况下,达到较好的分类效果。
[0006]为了实现上述目的,本专利技术通过如下的技术方案来实现:一种基于图文多模态的不良网站分类方法,所述方法包括如下步骤:S1:获取网页截图和网站meta标题,对所述网站meta标题进行数据清洗,过滤标题内容有效的样本作为训练集;所述标题内容有效具体指中文字符长度为4个及以上或者中文字符占比超50%;S2:对所述网页截图进行图像大小的压缩矫正,并通过预训练的ResNet50模型对所述网页截图进行编码,将其转化为图像特征向量;S3:通过Bert模型对网页截图对应的中文类型和网站meta标题中的关键词w进行编码,转化为与所述图像特征向量具有相同维度的文本特征向量,并对所述图像特征向量和所述文本特征向量进行L2归一化处理;
S4:构建CLIP模型,每次CLIP模型的输入是批量的三元组,每个三元组都由图像

文本对联合生成;计算图像特征向量和文本特征向量的相似度,以及图像

文本的联合表示分值,并引入InfoNCE函数计算交叉熵损失;S5:使用随机抽样批量正负样本数据对CLIP模型进行多轮迭代和优化,使CLIP模型对齐图像特征向量和文本特征向量,即:将不良网站生成图像和文本特征向量的距离拉近,将不良网站与正常网站生成图像和文本特征向量的差异增大;S6:将训练好的CLIP模型用于多模态网站分类,根据网页截图对齐语义信息来分类不良网站。
[0007]作为本专利技术的一种优选方案,所述步骤S1中,数据清洗具体包括:缺失值清洗、格式内容清洗以及逻辑错误清洗,所述缺失值清洗为确定缺失值范围、去除不需要的字段和缺失值填充,所述格式内容清洗为去除不需要的字符,所述逻辑错误清洗为去重、去除不合理值和修正矛盾内容。
[0008]作为本专利技术的一种优选方案,所述步骤S2中,通过预训练的ResNet50模型对所述网页截图进行编码,将其转化为图像特征向量的方法具体包括:通过深度学习框架导入预训练好的ResNet50模型作为图像特征提取器,所述深度学习框架包括PyTorch、TensorFlow、Keras;去掉ResNet50模型的最后一层全连接层,将倒数第二层作为输出层;将所述网页截图进行预处理,所述预处理包括调整图像大小为224
×
224,归一化图像像素值到0

1之间,减去训练集的均值、除以标准差;将预处理后的网页截图输入到ResNet50模型中,得到倒数第二层的输出作为图像特征向量。
[0009]作为本专利技术的一种优选方案,所述步骤S3中,转化为文本特征向量的方法具体包括:将网页截图对应的中文类型和网站meta标题中的关键词w作为文本序列输入到预训练好的Bert模型,将所述文本序列嵌入固定长度的向量空间中,并送入Transformer Encoder中进行编码转换;所述Transformer Encoder由若干个相同的层组成,每个层都包括多头自注意力机制和前馈神经网络这两个子层;在多头自注意力机制中,文本序列中的每个单词都会被关注,并且对其他单词产生影响,以让Bert模型捕捉文本序列中的上下文信息;在前馈神经网络中,所述文本序列被加权求和并经过非线性变换,从而得到一个新的向量表示,将这个新的向量表示送入下一层的多头自注意力机制中,重复以上操作,直至整个文本序列都被转换为一个固定长度的向量表示;Bert模型输出这个向量表示作为文本特征向量。
[0010]作为本专利技术的一种优选方案,所述计算图像特征向量和文本特征向量的相
似度为:对所述图像特征向量和文本特征向量进行点乘;所述计算图像

文本的联合表示分值的方法具体包括:将文本特征向量作为query,图像特征向量作为keys和values,计算在第i个描述下,文本特征向量相对于图像j的注意力表示,继而得到图像

文本的联合表示分值:。
[0011]作为本专利技术的一种优选方案,所述引入InfoNCE函数计算交叉熵损失的方法具体包括:在给定文本特征向量的情况下,最小化从所有批次图像的集合中正确检索图像特征向量的交叉熵,批次中的其他实例充当负样本,将该交叉熵损失称为图片检索损失函数,记为:;式中,表示在第i个描述下,文本特征向量相对于本身对应的图像i的联合表示分值;为第i个描述下的图片检索损失函数,j表示第j个图像,为图像总数;类似的,定义文本检索损失函数:;式中,为第i个描述下的文本检索损失函数;使用以及+两个损失总和来训练CLIP模型。
[0012]作为本专利技术的一种优选方案,所述步骤S5中,使用随机抽样批量正负样本数据对CLIP模型进行多轮迭代和优化的方法包括:采用基于本体的随机小批量抽样模式,样本包含N个类的不良网站和对应数量的正常网站,随机抽取小批量不良图片样本和随机抽取所有其他类型的对应数量样本对CLIP模型进行训练,使文本语义和图像语义从大类上达到一致,根据不同的网站meta标题中的关键词,随机抽取小批量的数据,通过同样类型本体下不同关键词区别来继续细化CLIP模
型参数,从而达到细粒度的优化。
[0013]一种基于图文多模态的不良网站分类系统,所述系统包括:数据获取模块,用于获取网页截图和网站meta标题;数据清洗模块,用于对所述网站meta标题进行数据清洗,过滤标题内容有效的样本作为训练集;所述标题内容有效具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图文多模态的不良网站分类方法,其特征在于,所述方法包括如下步骤:S1:获取网页截图和网站meta标题,对所述网站meta标题进行数据清洗,过滤标题内容有效的样本作为训练集;所述标题内容有效具体指中文字符长度为4个及以上或者中文字符占比超50%;S2:对所述网页截图进行图像大小的压缩矫正,并通过预训练的ResNet50模型对所述网页截图进行编码,将其转化为图像特征向量;S3:通过Bert模型对网页截图对应的中文类型和网站meta标题中的关键词w进行编码,转化为与所述图像特征向量具有相同维度的文本特征向量,并对所述图像特征向量和所述文本特征向量进行L2归一化处理;S4:构建CLIP模型,每次CLIP模型的输入是批量的三元组,每个三元组都由图像

文本对联合生成;计算图像特征向量和文本特征向量的相似度,以及图像

文本的联合表示分值,并引入InfoNCE函数计算交叉熵损失;S5:使用随机抽样批量正负样本数据对CLIP模型进行多轮迭代和优化,使CLIP模型对齐图像特征向量和文本特征向量,即:将不良网站生成图像和文本特征向量的距离拉近,将不良网站与正常网站生成图像和文本特征向量的差异增大;S6:将训练好的CLIP模型用于多模态网站分类,根据网页截图对齐语义信息来分类不良网站。2.根据权利要求1所述的一种基于图文多模态的不良网站分类方法,其特征在于,所述步骤S1中,数据清洗具体包括:缺失值清洗、格式内容清洗以及逻辑错误清洗,所述缺失值清洗为确定缺失值范围、去除不需要的字段和缺失值填充,所述格式内容清洗为去除不需要的字符,所述逻辑错误清洗为去重、去除不合理值和修正矛盾内容。3.根据权利要求1所述的一种基于图文多模态的不良网站分类方法,其特征在于,所述步骤S2中,通过预训练的ResNet50模型对所述网页截图进行编码,将其转化为图像特征向量的方法具体包括:通过深度学习框架导入预训练好的ResNet50模型作为图像特征提取器,所述深度学习框架包括PyTorch、TensorFlow、Keras;去掉ResNet50模型的最后一层全连接层,将倒数第二层作为输出层;将所述网页截图进行预处理,所述预处理包括调整图像大小为224
×
224,归一化图像像素值到0

1之间,减去训练集的均值、除以标准差;将预处理后的网页截图输入到ResNet50模型中,得到倒数第二层的输出作为图像特征向量。4.根据权利要求1所述的一种基于图文多模态的不良网站分类方法,其特征在于,所述步骤S3中,转化为文本特征向量的方法具体包括:将网页截图对应的中文类型和网站meta标题中的关键词w作为文本序列输入到预训练好的Bert模型,将所述文本序列嵌入固定长度的向量空间中,并送入Transformer Encoder中进行编码转换;所述Transformer Encoder由若干个相同的层组成,每个层都包
括多头自注意力机制和前馈神经网络这两个子层;在多头自注意力机制中,文本序列中的每个单词都会被关注,并且对其他单词产生影响,以让Bert模型捕捉文本序列中的上下文信息;在前馈神经网络中,所述文本序列被加权求和并经过非线性变换,从而得到一个新的向量表示,将这个新的向量表示送入下一层的多头自注意力机制中,重复以上操作,直至整个文本序列都被转换为一个固定长度的向量表示;Bert模型输出这个向量表示作为...

【专利技术属性】
技术研发人员:徐艺丹韦芹余栾鹏林李永成盛响倪正国韩晓华褚连杰高陆云朱琳彤周恬张志元张浩
申请(专利权)人:江苏省互联网行业管理服务中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1