网址的判别方法及装置制造方法及图纸

技术编号:37856725 阅读:12 留言:0更新日期:2023-06-14 22:51
本发明专利技术提供了一种网址的判别方法及装置,方法包括:获取输入的待判别网址;解析待判别网址的特征参数,以及,根据特征参数确定待判别网址的特征向量值;将特征向量值输入至训练好的判别模型中,通过判别模型对特征向量值进行判别,得到判别结果,以根据判别结果确定待判别网址的网址类型。本发明专利技术利用判别模型直接对待判别网址进行判别,该判别模型针对待判别网址的特征参数进行处理,可以对任意待判别网址准确判别,提高判别效率。判别模型为基于卷积网络CNN和Transformer模型构建的模型,利用Transformer的全局性对特征之间的联系进行处理,利用卷积神经网络的局部性能够提高判别效率,快速且准确地判别任意网址。快速且准确地判别任意网址。快速且准确地判别任意网址。

【技术实现步骤摘要】
网址的判别方法及装置


[0001]本专利技术涉及网址判别
,尤其涉及一种网址的判别方法及装置。

技术介绍

[0002]目前,恶意网址检测方面主要包括以下两种做法:第一种是存储网址检测结果,维护一个恶意网址的黑名单,判别方式只用通过简单的查询,耗时很短,但这一方法并没有进行实质上的网址判别,且当新的恶意网址出现或恶意网址为自动生成时则会失效。第二种办法先是连接网址下载恶意网址的HTML文件,利用模型对页面内的文本、图片等元素进行分别识别,依据识别结果获取结果。而此种办法相对成本高,需要文本识别模型和图片识别模型,识别速度慢。综上,现有技术无法快速且准确地识别恶意网址。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种网址的判别方法及装置,能够针对各种网址准确且快速地识别网址类型,快速识别出恶意网址。
[0004]第一方面,本专利技术实施例提供了一种网址的判别方法,该方法包括:获取输入的待判别网址;解析待判别网址的特征参数,以及,根据特征参数确定待判别网址的特征向量值;将特征向量值输入至训练好的判别模型中,通过判别模型对特征向量值进行判别,得到判别结果,以根据判别结果确定待判别网址的网址类型;其中,判别模型为基于卷积网络CNN和Transformer模型构建的模型。
[0005]结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,解析待判别网址的特征参数,以及,根据特征参数确定待判别网址的特征向量值的步骤,包括:针对输入的待判别网址,获取待判别网址的静态特征;获取待判别网址对应的输入流,并对输入流进行解析,得到待判别网址的多个动态特征;对多个动态特征和/或静态特征进行向量化处理,确定对应于判别模型的特征向量值。
[0006]结合第一方面,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,方法还包括:获取预先存储的网址数据集;提取网址数据集的目标特征;将网址数据集的目标特征输入至预先设置的判别模型中,训练判别模型,以构建待判别网址对应的判别模型。
[0007]结合第一方面,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,提取网址数据集的目标特征的步骤,包括:确定网址数据集中的每个网址的特征值的向量值;对向量值进行标准化处理,得到特征值对应的标准值;根据标准值对特征值进行筛选,将筛选后的特征值确定为目标特征。
[0008]结合第一方面,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,对向量值进行标准化处理,得到特征值对应的标准值的步骤,包括:将向量值变换为预设向量范围内的标准向量值,得到标准值。
[0009]结合第一方面,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,根据标准值对特征值进行筛选,将筛选后的特征值确定为目标特征的步骤,包括:根据标准值
对应的特征值的方差对特征值进行过滤;将过滤后的特征值确定为网址的多个目标特征值;根据预设的标签对多个目标特征值分别进行相关性计算,得到每个目标特征值分别对应的卡方统计量;根据卡方统计量对多个目标特征值进行筛选,将筛选出的多个目标特征值确定为目标特征。
[0010]结合第一方面,本专利技术实施例提供了第一方面的第六种可能的实施方式,其中,目标特征包括多个;将网址数据集的目标特征输入至预先设置的判别模型中,训练判别模型,以构建待判别网址对应的判别模型的步骤,包括:将多个目标特征输入至Transformer模型中,构建多个目标特征对应的权重矩阵;通过Transformer模型中的计算公式计算权重矩阵对应的向量注意力值;将向量注意力值存储为判别模型的计算参数,得到待判别网址对应的判别模型。
[0011]结合第一方面,本专利技术实施例提供了第一方面的第七种可能的实施方式,其中,计算公式包括:;Q、K、V分别为多个目标特征对应的权重矩阵;为Q和K的embedding维度;通过Transformer模型中的计算公式计算权重矩阵对应的向量注意力值的步骤,包括:将每个权重矩阵分为多个相邻的补丁窗口;通过计算公式对每个补丁窗口进行局部计算,以及通过滑窗操作计算每个补丁窗口的权值数据;对每个权值数据进行归一化,得到权值数据对应的权重数值;根据计算公式对每个权重数值进行带权求和,得到向量注意力值。
[0012]结合第一方面,本专利技术实施例提供了第一方面的第八种可能的实施方式,其中,通过判别模型对特征向量值进行判别,得到判别结果的步骤,包括:通过判别模型计算待判别网址的特征向量值对应的计算指标;根据计算指标对应的指标范围确定待判别网址的网址类型。
[0013]第二方面,本专利技术实施例还提供一种网址的判别装置,装置包括:数据获取模块,用于获取输入的待判别网址;数据预处理模块,用于解析待判别网址的特征参数,以及,根据特征参数确定待判别网址的特征向量值;识别模块,用于将特征向量值输入至训练好的判别模型中,通过判别模型对特征向量值进行判别,得到判别结果,以根据判别结果确定待判别网址的网址类型;其中,判别模型为基于卷积网络CNN和Transformer模型构建的模型。
[0014]第三方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0015]第四方面,本专利技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可运行指令,计算机可运行指令在被处理器调用和运行时,计算机可运行指令促使处理器运行上述方法。
[0016]本专利技术实施例带来了以下有益效果:本专利技术提供的一种网址的判别方法及装置,解析输入的待判别网址的特征参数,确定对应的特征向量值,再将该特征向量值输入至训练好的判别模型中,通过判别模型进行网址判别,其中,本专利技术实施例利用模型直接对待判别网址进行判别,该模型针对待判别网址的特征参数进行处理,可以对任意待判别网址准确判别,提高判别效率。此外,判别模型是基于卷积网络CNN和Transformer模型构建的模型,利用Transformer的全局性对特征之间的联系进行处理,利用卷积神经网络的局部性能
够提高判别效率,本专利技术实施例能够快速且准确地判别任意网址。
[0017]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
[0018]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0019]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本专利技术实施例提供的一种网址的判别方法的流程图;图2为本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网址的判别方法,其特征在于,所述方法包括:获取输入的待判别网址;解析所述待判别网址的特征参数,以及,根据所述特征参数确定所述待判别网址的特征向量值;将所述特征向量值输入至训练好的判别模型中,通过所述判别模型对所述特征向量值进行判别,得到判别结果,以根据所述判别结果确定所述待判别网址的网址类型;其中,所述判别模型为基于卷积网络CNN和Transformer模型构建的模型;解析所述待判别网址的特征参数,以及,根据所述特征参数确定所述待判别网址的特征向量值的步骤,包括:针对输入的所述待判别网址,获取所述待判别网址的静态特征;获取所述待判别网址对应的输入流,并对所述输入流进行解析,得到所述待判别网址的多个动态特征;对多个所述动态特征和/或所述静态特征进行向量化处理,确定对应于所述判别模型的特征向量值;所述通过所述判别模型对所述特征向量值进行判别,得到判别结果的步骤,包括:通过所述判别模型计算所述待判别网址的特征向量值对应的计算指标;根据所述计算指标对应的指标范围确定所述待判别网址的网址类型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取预先存储的网址数据集;提取所述网址数据集的目标特征;将所述网址数据集的目标特征输入至预先设置的判别模型中,训练所述判别模型,以构建所述待判别网址对应的判别模型。3.根据权利要求2所述的方法,其特征在于,提取所述网址数据集的目标特征的步骤,包括:确定所述网址数据集中的每个网址的特征值的向量值;对所述向量值进行标准化处理,得到所述特征值对应的标准值;根据所述标准值对所述特征值进行筛选,将筛选后的所述特征值确定为所述目标特征。4.根据权利要求3所述的方法,其特征在于,对所述向量值进行标准化处理,得到所述特征值对应的标准值的步骤,包括:将所述向量值变换为预设向量范围内的标准向量值,得到所述标准值。5.根据权利要求3所述的方法,其特征在于,根据所述标准值对所述特征值进行筛选,将筛选后的所述特征值确定为所述目标特征的步骤,包括:根据所述标准值对应的特征值的方差对所述特征值进行过滤;将过滤后的特征值确定为所述网址的多个目标特征值;根据预设的标签对多个所述目标特征值分别进行相关性计算,得到每个所述目标特征值分别对应的卡方统计量;根据所述卡方统计量对多个目标特征值进行筛选,将筛选出的多个目标特征值确定为所述目标特征。
6.根据权利要求2所述的方法,其特征在于,所述目标特征包括多个;将所述网址数据集的目标特征输入至预先设置...

【专利技术属性】
技术研发人员:侯磊蔡可妍潘霖顾明娟
申请(专利权)人:北京匠数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1