基于VLM的网站检测方法和装置制造方法及图纸

技术编号：37302000 阅读：15 留言：0更新日期：2023-04-21 22:47

本发明专利技术提供了基于VLM的网站检测方法和装置，包括：获取网站信息，网站信息包括网站首页的图片和源代码的目标文字信息；将源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将网站首页的图片通过训练后的NFNet

全部详细技术资料下载

【技术实现步骤摘要】
基于VLM的网站检测方法和装置
[0001]

本专利技术涉及计算机
，尤其是涉及基于VLM的网站检测方法和装置。
[0002]
技术介绍

随着互联网的普及，web建站的门槛越来越低，充斥着各种无ICP备案的网站、侵权影音网站和小说网站等。这些网站对社会发展容易造成恶劣影响。
[0003]当各类终端设备在访问这些网站的时候，需要对网站内容进行合规性检测。目前通过机器学习的方法来做网页内容分类的办法主要有以下几种：1）基于网页文本：通过深度学习cnn等算法来解释文字之间的相似度；通过逻辑回归和贝叶斯等机器学习的方法来对文本分类；通过网页结构属性特征作为输入，比如html标签、css和各类属性等，通过svm神经网络来做预测；2）基于网站日志数据来做分类；上述方法都需要大量的先验知识及人工标注来训练模型，从而导致分类的准确率低。
[0004]
技术实现思路

有鉴于此，本专利技术的目的在于提供基于VLM的网站检测方法和装置，在网页分类中，以训练后的文本transformer模型及训练后的NFNet
‑
F6模型为基础，结合网页文字信息和图片的特征，训练出可以对网页截图进行多分类的模型，从而达到可以精准分类网站的目的。
[0005]第一方面，本专利技术实施例提供了基于VLM的网站检测方法，所述方法包括：获取网站信息，所述网站信息包括网站首页的图片和源代码的目标文字信息；将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将所述网站首页的图片通过训练后...

【技术保护点】

【技术特征摘要】
1.一种基于VLM的网站检测方法，其特征在于，所述方法包括：获取网站信息，所述网站信息包括网站首页的图片和源代码的目标文字信息；将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量；将所述网站首页的图片通过训练后的NFNet
‑
F6模型，构成n个张量；将所述第一张量和所述n个张量进行转换和拼接处理，得到拼接后的向量；将所述拼接后的向量通过文本编码器和MLP模型，得到分类概率数组。2.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，所述源代码的目标文字信息包括所述源代码的网站描述信息或所述源代码的正文文本；将所述源代码的目标文字信息通过训练后的文本transformer模型，构成第一张量，包括：将所述源代码的网站描述信息或所述源代码的正文文本输入到所述训练后的文本transformer模型中，输出得到第一向量；根据所述第一向量构成多个文本形成的所述第一张量。3.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，将所述网站首页的图片通过训练后的NFNet
‑
F6模型，构成n个张量，包括：将所述网站首页的图片输入到所述训练后的NFNet
‑
F6模型中，输出得到最后第二层对应的第二张量；根据所述第二张量构成多个图片对应的所述n个张量。4.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，将所述第一张量和所述n个张量进行转换和拼接处理，得到拼接后的向量，包括：将所述第一张量进行转换，得到第二向量；将所述n个张量进行转换，得到第三向量；将所述第二向量和所述第三向量进行拼接，得到所述拼接后的向量。5.根据权利要求1所述的基于VLM的网站检测方法，其特征在于，将所述拼接后的向量通过文本编码器和MLP模型，得到分类概率数组，包括：将所述拼接后的向量通过所述文本...

【专利技术属性】
技术研发人员：吴一超，蔡可妍，张乐平，顾明娟，
申请(专利权)人：北京匠数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人