基于架构同源算法的有害信息检测方法、装置和存储介质制造方法及图纸

技术编号：38130845 阅读：9 留言：0更新日期：2023-07-08 09:38

本申请公开了一种基于架构同源算法的有害信息检测方法、装置和存储介质，本申请的方法包括爬取网页内容；对前端html进行网页基本特征提取；将所述网页基本特征进行比对，根据比对结果计算网页标签树相似度；根据所述网页标签树相似度判断网页内容是否存在有害信息。本申请使用一种新的基于架构同源理论的网页监测技术，当具备大量已标注样本后，无论实在互联网网址的检测准确率还是效率方面，在基于有害样本网页样本的基础上，其表现优于其他的处理模式。处理模式。处理模式。

全部详细技术资料下载

【技术实现步骤摘要】
基于架构同源算法的有害信息检测方法、装置和存储介质

[0001]本申请涉及有害信息检测领域，尤其是一种基于架构同源算法的有害信息检测方法、装置和存储介质。

技术介绍

[0002]随着互联网技术发展，互联网上的网页文章逐渐演变为多源异构的，通常一片网页文章由文字、相关图片序列或者视频信息等构成。在信息技术飞速发展的今天，多模态数据已成为近来互联网数据资源的主要形式，因此通过多模态深度学习模型构建方法，赋予计算机能够检测互联网上多源异构的有害信息能力对于信息安全具有重要价值
[0003]当前的互联网有害内容检测方法基本都是通过地址匹配的方式，例如，常规的互联网有害网址通过黑名单进行匹配预警，在传统方式，无法准确获取网页直接的相关性，导致对互联网上有害内容的检测准确率不高。
[0004]因此，相关技术存在的上述技术问题亟待解决。

技术实现思路

[0005]本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供一种基于架构同源算法的有害信息检测方法、装置和存储介质，能够有效检测互联网的有害信息并分析。
[0006]根据本申请实施例一方面，提供基于架构同源算法的有害信息检测方法，所述方法包括：
[0007]爬取网页内容；
[0008]对前端html进行网页基本特征提取；
[0009]将所述网页基本特征进行比对，根据比对结果计算网页标签树相似度；
[0010]根据所述网页标签树相似度判断网页内容是否存在有害信息。
[0011]在其中一个实施例

【技术保护点】

【技术特征摘要】
1.基于架构同源算法的有害信息检测方法，其特征在于，所述方法包括：爬取网页内容；对前端html进行网页基本特征提取；将所述网页基本特征进行比对，根据比对结果计算网页标签树相似度；根据所述网页标签树相似度判断网页内容是否存在有害信息。2.根据权利要求1所述的基于架构同源算法的有害信息检测方法，其特征在于，所述爬取网页内容，包括：通过网络爬虫将网页内容存入相应的数据库中，所述网页内容包括网页的文字信息、图片、前端页面的html字符串。3.根据权利要求1所述的基于架构同源算法的有害信息检测方法，其特征在于，所述对前端html进行网页基本特征提取，包括：对前端页面的html字符串中的标签进行提取，得到对应的标签树，所述标签树节点的名称为对应标签的类别名；统计标签树的树高、节点总数、各层节点的类别集合、最长分支或最长主干的节点总数、最长分支或最长主干各层节点的类别集合。4.根据权利要求1所述的基于架构同源算法的有害信息检测方法，其特征在于，所述对前端html进行网页基本特征提取，包括：对标签树的主干进行剪枝，使每个节点的子节点中，同类字节点不超过特定数值，修剪后的标签树结构中的总节点数不得超过特定数值。5.根据权利要求1所述的基于架构同源算法的有害信息检测方法，其特征在于，将所述网页基本特征进行比对，根据比对结果计算网页标签树相似度，包括：进行节点数比对，使相邻标签树的总节点的差值小于或等于预设数值，使相邻标签树的主干节点的差值小于或等于预设数值；进行层节点类别比对，使相邻标签树的各层类别标签类型互相包含，使相邻标签树的主干的各层类别标签类型互相包含。6.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员：王文重，戴小虎，
申请(专利权)人：珠海高凌信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人