网页分类检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号：40275757 阅读：10 留言：0更新日期：2024-02-02 23:02

本发明专利技术公开了一种网页分类检测方法、装置、电子设备和存储介质，其中方法包括：从网页中分别获取网页文本数据和网页图像数据；利用文本编码模型从网页文本数据中提取出文本特征，利用图像编码模型从网页图像数据中提取出图像特征；在文本特征和图像特征之间进行对比学习，得到第一损失函数；分别对文本特征和图像特征进行自监督学习，得到第二损失函数；根据第一损失函数和第二损失函数得到联合损失函数，当联合损失函数的值小于预设的阈值时，确定预训练分类模型；利用预训练分类模型，确定出待检测网页的类别。通过上述方案，本发明专利技术实现了包括图像和文本的多模态预训练的网页检测，降低了检测成本，提高了预训练模型的鲁棒性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络大数据支撑，具体涉及一种网页分类检测方法、装置、电子设备和存储介质。

技术介绍

1、随着互联网行业的快速发展以及网民数量的不断攀升，各类不法分子开发的非法网页层出不穷，也给公安部门的监管带来极大的挑战，犯罪分子通过精心设计的网页进行非法诈骗等活动，对社会和民众产生了不可估量的巨大损失。在相关技术中，通常爬取网址对应的网页的页面内容，并根据页面内容来检测当前的网页类别，并将结果同步给相关部门进行研判、筛查、分析和封禁。目前业界先进的网页检测技术方案如下：

2、其一是基于全监督学习的机器学习或深度学习。此类方案可以通过获取网页相关的文本内容、结构化的统计数据，并手动构建抽取多种特征，通过机器学习模型(如lr,svm,nb,knnn,gbdt等)进行训练和预测；或者无需手动构建特征，而是利用深度学习模型(如textcnn，dpcnn,fasttext，textrcnn等)的网络结构进行训练和预测。该类方案的缺点如下：(1)具有较大的主观性和局限性，往往是片面或冗余的，最终表现为模型可控性低，场景适用范围小，开发细节繁琐。(2)模型性能严重依赖特征工程和网络结构的设计，且在一般情况下检测效果不如预训练模型。(3)面对新型非法网站的增多，采用对模型的重新数据标注和模型训练，效率不高，不满足实时检测的需求。

3、其二是基于单模态预训练的模型。此类方案通过文本数据或者通过图片数据进行分类任务，基于单模态预训练模型(如bert,xlnet,ernie,albert,roberta,bart,t5等)并将

4、并且，上述的两个方案都依赖于完整的数据标注，往往标注困难，而严格的监督训练方式限制了模型的泛化性和实用性，且存在步骤繁琐、成本高、开发慢、资源消耗大等问题。

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网页分类检测方法、装置、电子设备和存储介质。

2、根据本专利技术的一个方面，提供了一种网页分类检测方法，所述方法包括：

3、从网页中分别获取网页文本数据和网页图像数据；

4、利用文本编码模型从所述网页文本数据中提取出文本特征，利用图像编码模型从所述网页图像数据中提取出图像特征；

5、在所述文本特征和所述图像特征之间进行对比学习，得到第一损失函数；和/或，分别对所述文本特征和图像特征进行自监督学习，得到第二损失函数；

6、根据所述第一损失函数和/或第二损失函数得到联合损失函数，当联合损失函数的值小于预设的阈值时，确定预训练分类模型；

7、利用所述预训练分类模型，确定出待检测网页的类别。

8、可选的，从网页中分别获取网页文本数据和网页图像数据，包括：

9、从网页中爬取网页标题、网页正文或网页图片中的至少一项，并从所述网页图片中识别出文本内容，经过预处理后形成文本样本集；

10、打开浏览器对网页进行拍照或截屏操作，得到所述网页图像数据，经过预处理后形成图像样本集。

11、可选的，经过预处理后形成文本样本集包括如下的至少一项操作：

12、经标签化或拼接后形成样本；剔除过短或过长的样本；剔除字段缺失的样本；将样本中全角字符转换为半角字符；剔除样本中空格、制表符或标点符号；为样本添加位置编码和/或分区编码。

13、可选的，从网页中分别获取网页文本数据和网页图像数据之后，还包括：

14、通过如下的至少一种方式实现文本样本集的增强：同义词替换、同音汉字替换、形近字替换、同义汉字字符替换、繁体简体替换、模拟键盘打字失误、性别词替换、网络缩写替换、部分词倒序替换、空格插入、标点插入、助词插入或汉字拆分；

15、通过如下的至少一种方式实现图像样本集的增强：对图像进行缩放或对图像进行边缘填充。

16、可选的，在所述文本特征和所述图像特征之间进行对比学习，得到第一损失函数包括：

17、将文本特征和图像特征分别进行归一化处理，得到相同维度和数量的文本特征和图像特征，并求取各文本特征和各图像特征的内积；

18、将配对的文本特征和图像特征的内积放置在矩阵的对角线上，其他内积放在矩阵的其他位置，形成内积矩阵；

19、根据所述内积矩阵，求解所述文本特征和图像特征之间的相似度函数；

20、基于所述相似度函数和温度系数，确定第一损失函数。

21、可选的，分别对所述文本特征和图像特征进行自监督学习，得到第二损失函数包括：

22、根据预测的掩码分词比例与输入的分词掩码比例的差值，确定第二文本掩码损失函数；

23、根据预测的掩码图像块比例与输入的图像块掩码比例的关联关系，确定第二图像掩码损失函数；

24、基于所述第二文本掩码损失函数和所述第二图像掩码损失函数，确定所述第二损失函数。

25、可选的，根据所述预训练分类模型，确定出待检测网页的类别包括：

26、确定待检测网页的分类标签；

27、将所述分类标签嵌入到可学习的上下文语句中；

28、将所述上下文语句以及待检测网页的拍照或截屏经预处理后，输入到所述预训练分类模型中，得到待检测网页的类别。

29、根据本专利技术的另一方面，提供了一种网页分类检测装置，所述装置包括：

30、获取模块，适于从网页中分别获取网页文本数据和网页图像数据；

31、提取模块，适于利用文本编码模型从所述网页文本数据中提取出文本特征，利用图像编码模型从所述网页图像数据中提取出图像特征；

32、学习模块，适于在所述文本特征和所述图像特征之间进行对比学习，得到第一损失函数；和/或，分别对所述文本特征和图像特征进行自监督学习，得到第二损失函数；

33、训练模块，适于根据所述第一损失函数和/或第二损失函数得到联合损失函数，当联合损失函数的值小于预设的阈值时，确定预训练分类模型；

34、检测模块，适于利用所述预训练分类模型，确定出待检测网页的类别。

35、根据本专利技术的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

36、所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述网页分类检测方法对应的操作。

37、根据本专利技术的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执本文档来自技高网...

【技术保护点】

1.一种网页分类检测方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，从网页中分别获取网页文本数据和网页图像数据，包括：

3.根据权利要求2所述的方法，其特征在于，经过预处理后形成文本样本集包括如下的至少一项操作：

4.根据权利要求2所述的方法，其特征在于，从网页中分别获取网页文本数据和网页图像数据之后，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，在所述文本特征和所述图像特征之间进行对比学习，得到第一损失函数包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，分别对所述文本特征和图像特征进行自监督学习，得到第二损失函数包括：

7.根据权利要求1-4中任一项所述的方法，其特征在于，根据所述预训练分类模型，确定出待检测网页的类别包括：

8.一种网页分类检测装置，所述装置包括：

9.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机存储介质，所

...

【技术特征摘要】

1.一种网页分类检测方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，从网页中分别获取网页文本数据和网页图像数据，包括：

3.根据权利要求2所述的方法，其特征在于，经过预处理后形成文本样本集包括如下的至少一项操作：

4.根据权利要求2所述的方法，其特征在于，从网页中分别获取网页文本数据和网页图像数据之后，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，在所述文本特征和所述图像特征之间进行对比学习，得到第一损失函数包括：

6.根据权利要求1-4中任一项所述的方法，其...

【专利技术属性】
技术研发人员：胡泽远，
申请(专利权)人：中国移动通信集团浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人