一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法技术

技术编号：41189458 阅读：21 留言：0更新日期：2024-05-07 22:20

本发明专利技术提供一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，包括自监督学习阶段，基于标注数据针对涉诈网站研判这一下游任务进行微调和知识蒸馏阶段。本发明专利技术在自监督学习的同时还引入了多模态特征，将文本图像对比学习与图像图像对比学习结合起来，以获得更全面的特征表示；使用大量未标注数据，通过设计前置任务，驱动模型学习无标注数据各部分之间的关系，从数据自身中提取特征，完成模型的预训练过程，可用来挖掘数据更深层的语义表征；完成预训练后使用少量有标注的数据，对预训练模型进行微调；同时利用知识蒸馏来压缩预训练的模型，在尽量不损害模型效果的情况下减少模型参数和模型大小，从而减少模型在后续部署阶段的资源开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电数字数据处理，具体涉及一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法。

技术介绍

1、为了能够保护人民群众的合法权益进而保障社会的稳定发展，需要确保拥有及时识别诈骗网站的能力，并提前对网站的接入用户作出预警。

2、现有的涉诈网站分类方法，通常都是基于网站文本进行关键字匹配，或是基于深度学习方法构建涉诈网站识别模型。基于文本关键字匹配的识别方法较为单一，通常会由于诈骗网站关键字的变化而产生大量漏判，后期需要投入的人力成本较大。现有的基于深度学习的方法，通常都是利用单一模态的信息建模，并且在涉及到图片的任务中，通常会使用在大型数据集上训练过的视觉模型作为图片的特征提取器，将提取到的图片特征用于下游任务。使用预训练视觉模型进行迁移时，往往目标域数据与用于预训练的源域数据分布差别较大，获得的迁移效果是有限的。

技术实现思路

1、本专利技术是为了解决如何获得更好的针对下游任务的表征且同时回避获取大量标注数据所需要的巨大成本的问题，提供一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，在自监督学习的同时还引入了多模态特征。使用大量未标注数据，通过设计前置任务，驱动模型学习无标注数据各部分之间的关系，从数据自身中提取特征，完成模型的预训练过程。完成预训练后使用少量有标注的数据，对预训练模型进行微调。同时为了减少模型在部署阶段的资源开销，使用知识蒸馏对模型进行压缩。

2、本专利技术提供一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，包括以下步骤：</p>

3、s1、自监督学习阶段，使用未标注涉诈网站图文数据对(xk,tk)，k＝1,2,l,n作为神经网络模型的训练输入，其中xk为未标注涉诈网站图片数据，tk为未标注涉诈网站文字数据，将未标注涉诈网站图片数据进行随机增强得到随机增强后的图片数据xi,xj；将原始图片数据、随机增强后的图片数据和文本数据输入编码器进行编码后映射得到特征向量，计算特征向量的对比损失，神经网络模型的前置任务为：使同一图片数据随机增强得到的xi,xj的特征向量相似度尽可能大，使文本数据和原始图片数据之间的相似度尽可能大，使增强后的图片数据、文本数据组成的数据对和原始图文数据对在经过神经网络模型后得到的分布相似度尽可能大，基于前置任务设计损失函数对所述神经网络模型的参数进行多轮迭代和优化直至最小化损失函数，完成自监督模型的预训练过程得到自监督模型；

4、s2、基于标注数据微调阶段，将标注的涉诈网站图文数据对(xh,xi,xj,tk,lk)输入自监督模型，其中li为标识网站是否涉诈的标签，向自监督模型中添加分类器并结合输入标签计算交叉熵损失，迭代优化自监督模型参数得到优化后自监督模型；

5、s3、知识蒸馏阶段，将所优化后自监督模型作为教师模型，使用小模型作为学生模型，迭代训练学生模型使得学生模型输出的概率分布尽可能的接近教师模型的输出，得到知识蒸馏后模型，使用知识蒸馏后模型进行涉诈网站研判，一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法完成。

6、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，步骤s1包括以下步骤：

7、s11、使用批量大小为n的未标注涉诈网站图文数据对(xk,tk)作为神经网络模型训练输入；

8、s12、对未标注涉诈网站图文数据对中的图片数据xk进行随机增强得到图片数据组(xh,xi,xj)和图文数据组(xh,xi,xj,tk)，其中xh为重新编码后的原始图片xk，h＝k-3，xi、xj为xh随机增强后的图片数据；

9、s13、将图文数据组(xh,xi,xj,tk)中的图片数据、文本数据分别输入至视觉编码器、文本编码器进行编码得到图片视觉特征ch,ci,cj和文本特征ck；

10、s14、将图片视觉特征ch,ci,cj和文本特征ck输入至映射头做线性变化并统一张量维度得到特征向量(zh,zi,zj,zk)；

11、s15、计算特征向量的对比损失并得到损失函数l，对比损失包括增强图片间的对比损失、文本与原始图片间的对比损失，随机增强图片和文本对的对比损失，神经网络模型的前置任务包括：zi,zj间的相似度尽可能大，文本向量zk和原始图片向量zh之间的相似度尽可能大，增强后的图片和文本组成的数据对(xi,tk)和(xj,tk)与原始图文数据对(xk,tk)在经过神经网络模型后得到的分布尽量近似；

12、s16、设置批量大小、学习率、优化器和迭代次数，对神经网络模型的参数进行多轮迭代和优化，从而使神经网络模型可以对齐文本和图像及图像和图像的信息，完成自监督模型的预训练过程得到自监督模型。

13、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，步骤s11中，未标注涉诈网站图片数据为涉诈网站首页截图，未标注涉诈网站文字数据包括：网站标题、meta关键字信息和网站可见文本；

14、步骤s12中，随机增强操作为以下任意一种：随机剪裁、随机色彩失真和随机高斯模糊，xi、xj的随机增强操作方法不同。

15、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，步骤s13中，视觉编码器为使用卷积网络或是基于transformer编码器的vit，文本编码器使用bert；

16、p＝1,2,l,n；h＝4p-3；i＝4p-2；j＝4p-1；k＝4p；

17、得到编码后的输出：

18、

19、其中，f1为视觉编码器对应的映射，为视觉编码器参数，f2为文本编码器对应的映射，为文本编码器参数。

20、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，步骤s14中，映射头包括两个全连接层和一个relu非线性激活函数，两个全连接层的神经元个数相同以统一特征向量维度；

21、

22、其中，视觉特征映射头g1(·)的参数为文本特征映射头g2(·)的参数为

23、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，神经网络模型为clip模型。

24、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，步骤s15中，神经网络模型的损失函数l为：

25、

26、其中，lvis为n个增强图片对的损失平均值，ltxt为n个原始图片和文本对的损失平均值，为随机增强图片和文本构成的图文对与原始图片和文本构成的图文对之间的损失。

27、本专利技术所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，作为优选方式，lvis为：

28、

29、其中，损失函数lv(i,j)为：

30、

31、其中，zi,zj间的相似度s(i,j)为：

32、

33、其中，(zi)t为zi的转秩，τ为温度系本文档来自技高网...

【技术保护点】

1.一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤S1包括以下步骤：

3.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤S11中，未标注涉诈网站图片数据为涉诈网站首页截图，未标注涉诈网站文字数据包括：网站标题、meta关键字信息和网站可见文本；

4.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：

5.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：

6.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：所述神经网络模型为CLIP模型。

7.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤S15中，所述神经网络模型的损失函数L为：

8.根据权利要求7所述的一种基于多模态自监督学习知识蒸馏的

9.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤S2中，将标注的涉诈网站图片数据和标注的涉诈网站文本数据分别通过视觉编码器、文本编码器、映射头后得到zh,zi,zj,zk，再向所述自监督模型中添加分类器，zh+zk融合原始图片特征和文本特征，输入所述分类器，结合输入标签计算交叉熵损失迭代优化模型参数。

10.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤S3中，学生模型的总损失函数包括KL散度和交叉熵，所述KL散度为输出的图文特征与软标签的测度，所述交叉熵为学生模型预测值与真实标签的测度；

...

【技术特征摘要】

1.一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤s1包括以下步骤：

3.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：步骤s11中，未标注涉诈网站图片数据为涉诈网站首页截图，未标注涉诈网站文字数据包括：网站标题、meta关键字信息和网站可见文本；

4.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：

5.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：

6.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法，其特征在于：所述神经网络模型为clip模型。

7.根据权利要求2所述的一种...

【专利技术属性】
技术研发人员：林飞，彭奕萍，易永波，古元，毛华阳，华仲峰，
申请(专利权)人：北京亚鸿世纪科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人