一种基于图文多模态的不良网站分类方法、系统及设备技术方案

技术编号：38936428 阅读：12 留言：0更新日期：2023-09-25 09:38

本发明专利技术涉及网络安全技术领域，具体涉及一种基于图文多模态的不良网站分类方法、系统及设备，对网页截图和网站meta标题进行特征提取和相似度计算，通过InfoNCE损失函数优化CLIP模型，采用基于本体的随机抽样进行CLIP模型训练，融合图、文两个模态的特征，根据融合的特征对不良网站进行分类，可以提高网站分类的准确性和覆盖率；采用小批量训练抽样方式，仅需要约1%的数据即可达到相似的训练效果，同时不需要人工标注大量的训练数据和大型的TPU计算机器，也不需要针对不同语言或主题设计特定的分类规则或词典，可以提高网站分类的效率和可实现性；可针对无法使用OCR技术分析出的图片进行分析和明确分类。行分析和明确分类。行分析和明确分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图文多模态的不良网站分类方法、系统及设备

[0001]本专利技术涉及网络安全
，具体涉及一种基于图文多模态的不良网站分类方法、系统及设备。

技术介绍

[0002]信息技术和移动互联网的蓬勃发展，在方便了人们生活的同时，也需要我们对不良网站做出及时准确地识别，从而提前对接入用户作出预警。
[0003]现有的不良网站识别方法主要有两种，一种是采用基于网站文本内容的匹配技术，对网站的文本关键词进行匹配；另一种是根据网站的文本或图片单模态信息，构建深度学习分类模型来识别不良网站。这种根据网站的文本或图片单模态信息构建深度学习分类模型的方法，只考虑了图片或文本单一模态的信息，或者直接使用OCR技术抽取图片中的文本信息，对无文字信息的图片处理不足，而信息的载体包括文本、图像、视频、音频等，是多种多样的。现有的不良网站识别方法存在着识别效率不高、容易漏报的问题。
[0004]多模态学习通过建立多模态模型，融合图片和文本等多个模态的信息，使网络能够从多模态中学习各个模态的信息，从而提升模型的学习能力，获得更准确的结果。因此本专利技术提出一种基于图文多模态的不良网站分类方法、系统及设备，以解决现有技术中的问题。

技术实现思路

[0005]针对现有的不良网站分类方法中对无文字信息的图片处理不足，识别效率不高、容易漏报等问题，本专利技术提出一种基于图文多模态的不良网站分类方法、系统及设备。通过基于预训练图文模型的CLIP模型，提取不良网站截图和文本两个模态的信息，提取不良网站视觉特征及文字特征...

【技术保护点】

【技术特征摘要】
1.一种基于图文多模态的不良网站分类方法，其特征在于，所述方法包括如下步骤：S1：获取网页截图和网站meta标题，对所述网站meta标题进行数据清洗，过滤标题内容有效的样本作为训练集；所述标题内容有效具体指中文字符长度为4个及以上或者中文字符占比超50%；S2：对所述网页截图进行图像大小的压缩矫正，并通过预训练的ResNet50模型对所述网页截图进行编码，将其转化为图像特征向量；S3：通过Bert模型对网页截图对应的中文类型和网站meta标题中的关键词w进行编码，转化为与所述图像特征向量具有相同维度的文本特征向量，并对所述图像特征向量和所述文本特征向量进行L2归一化处理；S4：构建CLIP模型，每次CLIP模型的输入是批量的三元组，每个三元组都由图像
‑
文本对联合生成；计算图像特征向量和文本特征向量的相似度，以及图像
‑
文本的联合表示分值，并引入InfoNCE函数计算交叉熵损失；S5：使用随机抽样批量正负样本数据对CLIP模型进行多轮迭代和优化，使CLIP模型对齐图像特征向量和文本特征向量，即：将不良网站生成图像和文本特征向量的距离拉近，将不良网站与正常网站生成图像和文本特征向量的差异增大；S6：将训练好的CLIP模型用于多模态网站分类，根据网页截图对齐语义信息来分类不良网站。2.根据权利要求1所述的一种基于图文多模态的不良网站分类方法，其特征在于，所述步骤S1中，数据清洗具体包括：缺失值清洗、格式内容清洗以及逻辑错误清洗，所述缺失值清洗为确定缺失值范围、去除不需要的字段和缺失值填充，所述格式内容清洗为去除不需要的字符，所述逻辑错误清洗为去重、去除不合理值和修正矛盾内容。3.根据权利要求1所述的一种基于图文多模态的不良网站分类方法，其特征在于，所述步骤S2中，通过预训练的ResNet50模型对所述网页截图进行编码，将其转化为图像特征向量的方法具体包括：通过深度学习框架导入预训练好的ResNet50模型作为图像特征提取器，所述深度学习框架包括PyTorch、TensorFlow、Keras；去掉ResNet50模型的最后一层全连接层，将倒数第二层作为输出层；将所述网页截图进行预处理，所述预处理包括调整图像大小为224
×
224，归一化图像像素值到0
‑
1之间，减去训练集的均值、除以标准差；将预处理后的网页截图输入到ResNet50模型中，得到倒数第二层的输出作为图像特征向量。4.根据权利要求1所述的一种基于图文多模态的不良网站分类方法，其特征在于，所述步骤S3中，转化为文本特征向量的方法具体包括：将网页截图对应的中文类型和网站meta标题中的关键词w作为文本序列输入到预训练好的Bert模型，将所述文本序列嵌入固定长度的向量空间中，并送入Transformer Encoder中进行编码转换；所述Transformer Encoder由若干个相同的层组成，每个层都包
括多头自注意力机制和前馈神经网络这两个子层；在多头自注意力机制中，文本序列中的每个单词都会被关注，并且对其他单词产生影响，以让Bert模型捕捉文本序列中的上下文信息；在前馈神经网络中，所述文本序列被加权求和并经过非线性变换，从而得到一个新的向量表示，将这个新的向量表示送入下一层的多头自注意力机制中，重复以上操作，直至整个文本序列都被转换为一个固定长度的向量表示；Bert模型输出这个向量表示作为...

【专利技术属性】
技术研发人员：徐艺丹，韦芹余，栾鹏林，李永成，盛响，倪正国，韩晓华，褚连杰，高陆云，朱琳彤，周恬，张志元，张浩，
申请(专利权)人：江苏省互联网行业管理服务中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人