System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电数字数据处理,具体涉及一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法。
技术介绍
1、为了能够保护人民群众的合法权益进而保障社会的稳定发展,需要确保拥有及时识别诈骗网站的能力,并提前对网站的接入用户作出预警。
2、现有的涉诈网站分类方法,通常都是基于网站文本进行关键字匹配,或是基于深度学习方法构建涉诈网站识别模型。基于文本关键字匹配的识别方法较为单一,通常会由于诈骗网站关键字的变化而产生大量漏判,后期需要投入的人力成本较大。现有的基于深度学习的方法,通常都是利用单一模态的信息建模,并且在涉及到图片的任务中,通常会使用在大型数据集上训练过的视觉模型作为图片的特征提取器,将提取到的图片特征用于下游任务。使用预训练视觉模型进行迁移时,往往目标域数据与用于预训练的源域数据分布差别较大,获得的迁移效果是有限的。
技术实现思路
1、本专利技术是为了解决如何获得更好的针对下游任务的表征且同时回避获取大量标注数据所需要的巨大成本的问题,提供一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,在自监督学习的同时还引入了多模态特征。使用大量未标注数据,通过设计前置任务,驱动模型学习无标注数据各部分之间的关系,从数据自身中提取特征,完成模型的预训练过程。完成预训练后使用少量有标注的数据,对预训练模型进行微调。同时为了减少模型在部署阶段的资源开销,使用知识蒸馏对模型进行压缩。
2、本专利技术提供一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,包括以下步骤:<
...【技术保护点】
1.一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤S1包括以下步骤:
3.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤S11中,未标注涉诈网站图片数据为涉诈网站首页截图,未标注涉诈网站文字数据包括:网站标题、meta关键字信息和网站可见文本;
4.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:
5.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:
6.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:所述神经网络模型为CLIP模型。
7.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤S15中,所述神经网络模型的损失函数L为:
8.根据权利要求7所述的一种基于多模态自监督学习知识蒸馏的
9.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤S2中,将标注的涉诈网站图片数据和标注的涉诈网站文本数据分别通过视觉编码器、文本编码器、映射头后得到zh,zi,zj,zk,再向所述自监督模型中添加分类器,zh+zk融合原始图片特征和文本特征,输入所述分类器,结合输入标签计算交叉熵损失迭代优化模型参数。
10.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤S3中,学生模型的总损失函数包括KL散度和交叉熵,所述KL散度为输出的图文特征与软标签的测度,所述交叉熵为学生模型预测值与真实标签的测度;
...【技术特征摘要】
1.一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤s1包括以下步骤:
3.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:步骤s11中,未标注涉诈网站图片数据为涉诈网站首页截图,未标注涉诈网站文字数据包括:网站标题、meta关键字信息和网站可见文本;
4.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:
5.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:
6.根据权利要求2所述的一种基于多模态自监督学习知识蒸馏的涉诈网站研判方法,其特征在于:所述神经网络模型为clip模型。
7.根据权利要求2所述的一种...
【专利技术属性】
技术研发人员:林飞,彭奕萍,易永波,古元,毛华阳,华仲峰,
申请(专利权)人:北京亚鸿世纪科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。