基于架构同源算法的有害信息检测方法、装置和存储介质制造方法及图纸

技术编号:38130845 阅读:9 留言:0更新日期:2023-07-08 09:38
本申请公开了一种基于架构同源算法的有害信息检测方法、装置和存储介质,本申请的方法包括爬取网页内容;对前端html进行网页基本特征提取;将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度;根据所述网页标签树相似度判断网页内容是否存在有害信息。本申请使用一种新的基于架构同源理论的网页监测技术,当具备大量已标注样本后,无论实在互联网网址的检测准确率还是效率方面,在基于有害样本网页样本的基础上,其表现优于其他的处理模式。处理模式。处理模式。

【技术实现步骤摘要】
基于架构同源算法的有害信息检测方法、装置和存储介质


[0001]本申请涉及有害信息检测领域,尤其是一种基于架构同源算法的有害信息检测方法、装置和存储介质。

技术介绍

[0002]随着互联网技术发展,互联网上的网页文章逐渐演变为多源异构的,通常一片网页文章由文字、相关图片序列或者视频信息等构成。在信息技术飞速发展的今天,多模态数据已成为近来互联网数据资源的主要形式,因此通过多模态深度学习模型构建方法,赋予计算机能够检测互联网上多源异构的有害信息能力对于信息安全具有重要价值
[0003]当前的互联网有害内容检测方法基本都是通过地址匹配的方式,例如,常规的互联网有害网址通过黑名单进行匹配预警,在传统方式,无法准确获取网页直接的相关性,导致对互联网上有害内容的检测准确率不高。
[0004]因此,相关技术存在的上述技术问题亟待解决。

技术实现思路

[0005]本申请旨在解决相关技术中的技术问题之一。为此,本申请实施例提供一种基于架构同源算法的有害信息检测方法、装置和存储介质,能够有效检测互联网的有害信息并分析。
[0006]根据本申请实施例一方面,提供基于架构同源算法的有害信息检测方法,所述方法包括:
[0007]爬取网页内容;
[0008]对前端html进行网页基本特征提取;
[0009]将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度;
[0010]根据所述网页标签树相似度判断网页内容是否存在有害信息。
[0011]在其中一个实施例中,所述爬取网页内容,包括:
[0012]通过网络爬虫将网页内容存入相应的数据库中,所述网页内容包括网页的文字信息、图片、前端页面的html字符串。
[0013]在其中一个实施例中,所述对前端html进行网页基本特征提取,包括:
[0014]对前端页面的html字符串中的标签进行提取,得到对应的标签树,所述标签树节点的名称为对应标签的类别名;
[0015]统计标签树的树高、节点总数、各层节点的类别集合、最长分支或最长主干的节点总数、最长分支或最长主干各层节点的类别集合。
[0016]在其中一个实施例中,所述对前端html进行网页基本特征提取,包括:
[0017]对标签树的主干进行剪枝,使每个节点的子节点中,同类字节点不超过特定数值,修剪后的标签树结构中的总节点数不得超过特定数值。
[0018]在其中一个实施例中,将所述网页基本特征进行比对,根据比对结果计算网页标
签树相似度,包括:
[0019]进行节点数比对,使相邻标签树的总节点的差值小于或等于预设数值,使相邻标签树的主干节点的差值小于或等于预设数值;
[0020]进行层节点类别比对,使相邻标签树的各层类别标签类型互相包含,使相邻标签树的主干的各层类别标签类型互相包含。
[0021]在其中一个实施例中,所述计算网页标签树相似度的公式为:
[0022]S=1

D/N
[0023]其中,N为主干节点数,当主干节点数超过节点阈值时,D为剪枝后的标签树cT1主和剪枝后的标签树cT2干节点数之间的编辑距离,N为剪枝后的主干节点数。
[0024]在其中一个实施例中,根据所述网页标签树相似度判断网页内容是否存在有害信息,包括:
[0025]通过归一化后将所述网页标签树链接到一起,用多核学习算法训练分类器进行训练;
[0026]将异构数据中的不同特征分量通过单个核函数进行映射,将特征组织成多个组,合并来自文本和视觉两种模态的数据特征,每个组都有对应的核函数。
[0027]根据本申请实施例一方面,提供基于架构同源算法的有害信息检测装置,所述装置包括:
[0028]第一模块,用于爬取网页内容;
[0029]第二模块,用于对前端html进行网页基本特征提取;
[0030]第三模块,用于将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度;
[0031]第四模块,用于根据所述网页标签树相似度判断网页内容是否存在有害信息。
[0032]根据本申请实施例一方面,提供基于架构同源算法的有害信息检测装置,所述装置包括:
[0033]至少一个处理器;
[0034]至少一个存储器,所述存储器用于存储至少一个程序;
[0035]当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的基于架构同源算法的有害信息检测方法。
[0036]根据本申请实施例一方面,提供存储介质,所述存储介质存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时实现如前面实施例所述的基于架构同源算法的有害信息检测方法。
[0037]本申请实施例提供的一种基于架构同源算法的有害信息检测方法、装置和存储介质的有益效果为:本申请的方法包括爬取网页内容;对前端html进行网页基本特征提取;将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度;根据所述网页标签树相似度判断网页内容是否存在有害信息。本申请使用一种新的基于架构同源理论的网页监测技术,当具备大量已标注样本后,无论实在互联网网址的检测准确率还是效率方面,在基于有害样本网页样本的基础上,其表现优于其他的处理模式。
[0038]本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0039]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1为本申请实施例提供的一种基于架构同源算法的有害信息检测方法的流程图;
[0041]图2为本申请实施例提供的一种基于架构同源算法的有害信息检测装置的示意图;
[0042]图3为本申请实施例提供的一种基于架构同源算法的有害信息检测装置的示意图。
具体实施方式
[0043]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0044]本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
...

【技术保护点】

【技术特征摘要】
1.基于架构同源算法的有害信息检测方法,其特征在于,所述方法包括:爬取网页内容;对前端html进行网页基本特征提取;将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度;根据所述网页标签树相似度判断网页内容是否存在有害信息。2.根据权利要求1所述的基于架构同源算法的有害信息检测方法,其特征在于,所述爬取网页内容,包括:通过网络爬虫将网页内容存入相应的数据库中,所述网页内容包括网页的文字信息、图片、前端页面的html字符串。3.根据权利要求1所述的基于架构同源算法的有害信息检测方法,其特征在于,所述对前端html进行网页基本特征提取,包括:对前端页面的html字符串中的标签进行提取,得到对应的标签树,所述标签树节点的名称为对应标签的类别名;统计标签树的树高、节点总数、各层节点的类别集合、最长分支或最长主干的节点总数、最长分支或最长主干各层节点的类别集合。4.根据权利要求1所述的基于架构同源算法的有害信息检测方法,其特征在于,所述对前端html进行网页基本特征提取,包括:对标签树的主干进行剪枝,使每个节点的子节点中,同类字节点不超过特定数值,修剪后的标签树结构中的总节点数不得超过特定数值。5.根据权利要求1所述的基于架构同源算法的有害信息检测方法,其特征在于,将所述网页基本特征进行比对,根据比对结果计算网页标签树相似度,包括:进行节点数比对,使相邻标签树的总节点的差值小于或等于预设数值,使相邻标签树的主干节点的差值小于或等于预设数值;进行层节点类别比对,使相邻标签树的各层类别标签类型互相包含,使相邻标签树的主干的各层类别标签类型互相包含。6.根据权利要求1所述的基于...

【专利技术属性】
技术研发人员:王文重戴小虎
申请(专利权)人:珠海高凌信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1