基于VLM的网站检测方法和装置制造方法及图纸

技术编号:37302000 阅读:15 留言:0更新日期:2023-04-21 22:47
本发明专利技术提供了基于VLM的网站检测方法和装置,包括:获取网站信息,网站信息包括网站首页的图片和源代码的目标文字信息;将源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量;将网站首页的图片通过训练后的NFNet

【技术实现步骤摘要】
基于VLM的网站检测方法和装置
[0001]

本专利技术涉及计算机
,尤其是涉及基于VLM的网站检测方法和装置。
[0002]
技术介绍

随着互联网的普及,web建站的门槛越来越低,充斥着各种无ICP备案的网站、侵权影音网站和小说网站等。这些网站对社会发展容易造成恶劣影响。
[0003]当各类终端设备在访问这些网站的时候,需要对网站内容进行合规性检测。目前通过机器学习的方法来做网页内容分类的办法主要有以下几种:1)基于网页文本:通过深度学习cnn等算法来解释文字之间的相似度;通过逻辑回归和贝叶斯等机器学习的方法来对文本分类;通过网页结构属性特征作为输入,比如html标签、css和各类属性等,通过svm神经网络来做预测;2)基于网站日志数据来做分类;上述方法都需要大量的先验知识及人工标注来训练模型,从而导致分类的准确率低。
[0004]
技术实现思路

有鉴于此,本专利技术的目的在于提供基于VLM的网站检测方法和装置,在网页分类中,以训练后的文本transformer模型及训练后的NFNet

F6模型为基础,结合网页文字信息和图片的特征,训练出可以对网页截图进行多分类的模型,从而达到可以精准分类网站的目的。
[0005]第一方面,本专利技术实施例提供了基于VLM的网站检测方法,所述方法包括:获取网站信息,所述网站信息包括网站首页的图片和源代码的目标文字信息;将所述源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量;将所述网站首页的图片通过训练后的NFNet

F6模型,构成n个张量;将所述第一张量和所述n个张量进行转换和拼接处理,得到拼接后的向量;将所述拼接后的向量通过文本编码器和MLP模型,得到分类概率数组。
[0006]进一步的,所述源代码的目标文字信息包括所述源代码的网站描述信息或所述源代码的正文文本;将所述源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量,包括:将所述源代码的网站描述信息或所述源代码的正文文本输入到所述训练后的文本transformer模型中,输出得到第一向量;根据所述第一向量构成多个文本形成的所述第一张量。
[0007]进一步的,将所述网站首页的图片通过训练后的NFNet

F6模型,构成n个张量,包括:
将所述网站首页的图片输入到所述训练后的NFNet

F6模型中,输出得到最后第二层对应的第二张量;根据所述第二张量构成多个图片对应的所述n个张量。
[0008]进一步的,将所述第一张量和所述n个张量进行转换和拼接处理,得到拼接后的向量,包括:将所述第一张量进行转换,得到第二向量;将所述n个张量进行转换,得到第三向量;将所述第二向量和所述第三向量进行拼接,得到所述拼接后的向量。
[0009]进一步的,将所述拼接后的向量通过文本编码器和MLP模型,得到分类概率数组,包括:将所述拼接后的向量通过所述文本编码器,得到编码后的向量;将所述编码后的向量通过所述MLP模型,得到所述分类概率数组。
[0010]进一步的,所述方法还包括:获取待预测网站的网站描述信息、网页文本和网页图片;将所述网站描述信息和所述网页文本输入到文本编码器中,输出得到第四向量;将所述网页图片输入到所述NFNet

F6模型中进行编码,得到第五张量;将所述第四向量和所述第五张量进行拼接,得到拼接后的待预测向量;将所述拼接后的待预测向量输入到训练后的MLP模型中,输出得到分类结果。
[0011]进一步的,所述方法还包括:通过反向传播更新所述训练后的文本transformer模型的参数和所述训练后的NFNet

F6模型的参数。
[0012]第二方面,本专利技术实施例提供了基于VLM的网站检测装置,所述装置包括:网站信息获取模块,用于获取网站信息,所述网站信息包括网站首页的图片和源代码的目标文字信息;第一构成模块,用于将所述源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量;第二构成模块,用于将所述网站首页的图片通过训练后的NFNet

F6模型,构成n个张量;处理模块,用于将所述第一张量和所述n个张量进行转换和拼接处理,得到拼接后的向量;分类概率数组获取模块,用于将所述拼接后的向量通过文本编码器和MLP模型,得到分类概率数组。
[0013]第三方面,本专利技术实施例提供了电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
[0014]第四方面,本专利技术实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如上所述的方法。
[0015]本专利技术实施例提供了基于VLM的网站检测方法和装置,包括:获取网站信息,网站信息包括网站首页的图片和源代码的目标文字信息;将源代码的目标文字信息通过训练后
的文本transformer模型,构成第一张量;将网站首页的图片通过训练后的NFNet

F6模型,构成n个张量;将第一张量和n个张量进行转换和拼接处理,得到拼接后的向量;将拼接后的向量通过文本编码器和MLP模型,得到分类概率数组;在网页分类中,以训练后的文本transformer模型及训练后的NFNet

F6模型为基础,结合网页文字信息和图片的特征,训练出可以对网页截图进行多分类的模型,从而达到可以精准分类网站的目的。
[0016]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0017]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
[0018]附图说明
为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本专利技术实施例一提供的基于VLM的网站检测方法流程图;图2为本专利技术实施例一提供的训练模型过程示意图;图3为本专利技术实施例二提供的基于VLM的网站检测装置示意图。
[0020]图标:1

网站信息获取模块;2

第一构成模块;3

第二构成模块;4

处理模块;5

分类概率数组获取模块。
具体实施方式
[0021]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于VLM的网站检测方法,其特征在于,所述方法包括:获取网站信息,所述网站信息包括网站首页的图片和源代码的目标文字信息;将所述源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量;将所述网站首页的图片通过训练后的NFNet

F6模型,构成n个张量;将所述第一张量和所述n个张量进行转换和拼接处理,得到拼接后的向量;将所述拼接后的向量通过文本编码器和MLP模型,得到分类概率数组。2.根据权利要求1所述的基于VLM的网站检测方法,其特征在于,所述源代码的目标文字信息包括所述源代码的网站描述信息或所述源代码的正文文本;将所述源代码的目标文字信息通过训练后的文本transformer模型,构成第一张量,包括:将所述源代码的网站描述信息或所述源代码的正文文本输入到所述训练后的文本transformer模型中,输出得到第一向量;根据所述第一向量构成多个文本形成的所述第一张量。3.根据权利要求1所述的基于VLM的网站检测方法,其特征在于,将所述网站首页的图片通过训练后的NFNet

F6模型,构成n个张量,包括:将所述网站首页的图片输入到所述训练后的NFNet

F6模型中,输出得到最后第二层对应的第二张量;根据所述第二张量构成多个图片对应的所述n个张量。4.根据权利要求1所述的基于VLM的网站检测方法,其特征在于,将所述第一张量和所述n个张量进行转换和拼接处理,得到拼接后的向量,包括:将所述第一张量进行转换,得到第二向量;将所述n个张量进行转换,得到第三向量;将所述第二向量和所述第三向量进行拼接,得到所述拼接后的向量。5.根据权利要求1所述的基于VLM的网站检测方法,其特征在于,将所述拼接后的向量通过文本编码器和MLP模型,得到分类概率数组,包括:将所述拼接后的向量通过所述文本...

【专利技术属性】
技术研发人员:吴一超蔡可妍张乐平顾明娟
申请(专利权)人:北京匠数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1