当前位置: 首页 > 专利查询>中国移动专利>正文

网址数据增强方法技术

技术编号:39591034 阅读:7 留言:0更新日期:2023-12-03 19:45
本发明专利技术公开了网址数据增强方法

【技术实现步骤摘要】
网址数据增强方法、系统、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种网址数据增强方法

系统

设备及存储介质


技术介绍

[0002]随着互联网的快速发展以及网民数量的不断攀升,信息在高速交互过程中,恶意网址严重威胁用户的隐私和信息安全,随着人工智能技术的发展,往往采用机器学习和深度学习技术来快速

准确的识别恶意网址

而机器学习和深度学习需要大量的网址数据样本

在相关数据中,只考虑了单一模式的数据增强,导致最终得到的网址数据样本质量差


技术实现思路

[0003]本申请实施例通过提供一种网址数据增强方法

系统

设备及存储介质,旨在解决网址数据样本质量差的问题

[0004]本申请实施例提供了一种网址数据增强方法,所述网址数据增强方法,包括:
[0005]获取网址真实数据和网址伪数据的全局特征以及局部特征,其中,所述局部特征包括静态统计特征

网址文本特征

网页标题文本特征和网页内容文本特征中的至少一个;
[0006]将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度;
[0007]当所述网址伪数据与所述网址真实数据的相似度达到预设阈值时,将所述网址伪数据确定为增强网址数据
。<br/>[0008]在一实施例中,所述获取网址真实数据和网址伪数据的全局特征以及局部特征的步骤包括:
[0009]将经过高斯分布模型随机产生的噪声数据输入生成器,得到网址伪数据;
[0010]对所述网址伪数据进行特征提取,得到所述网址伪数据的全局特征以及局部特征,以及对所述网址真实数据进行特征提取,得到所述网址真实数据的全局特征以及局部特征

[0011]在一实施例中,所述将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度的步骤之后,还包括:
[0012]当所述网址伪数据与所述网址真实数据的相似度未达到预设阈值时,返回执行所述将经过高斯分布模型随机产生的噪声数据输入生成器,得到网址伪数据的步骤

[0013]在一实施例中,所述将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度的步骤包括:
[0014]将所述网址伪数据的局部特征输入对应的判别器,得到所述网址伪数据的局部特征的判别结果,以及采用全局判别器对所述网址伪数据的全局特征进行判别,得到所述网址伪数据的全局特征的判别结果;
[0015]根据所述网址伪数据的局部特征的判别结果和所述网址伪数据的全局特征的判
别结果的加权值确定所述网址伪数据的判别结果;
[0016]将所述网址真实数据的局部特征输入对应的判别器,得到所述网址真实数据的局部特征的判别结果,以及采用全局判别器对所述网址真实数据的全局特征进行判别,得到所述网址真实数据的全局特征的判别结果;
[0017]根据所述网址真实数据的局部特征的判别结果和所述网址真实数据的全局特征的判别结果的加权值确定所述网址真实数据的判别结果;
[0018]根据所述网址伪数据的判别结果和所述网址真实数据的判别结果确定所述网址伪数据与所述网址真实数据的相似度;
[0019]在一实施例中,所述将所述网址伪数据的局部特征输入对应的判别器,得到所述网址伪数据的局部特征的判别结果,以及采用全局判别器对所述网址伪数据的全局特征进行判别,得到所述网址伪数据的全局特征的判别结果的步骤包括:
[0020]采用第一类型判别器分别判别所述网址伪数据的网址文本特征

所述网页标题文本特征以及所述网页内容文本特征的真伪,得到所述网址文本特征

所述网页标题文本特征以及所述网页内容文本特征对应的判别结果;
[0021]采用第二类型判别器判别所述网址伪数据对应的静态统计特征的真伪,得到所述静态统计特征对应的判别结果;
[0022]根据所述网址文本特征

所述网页标题文本特征以及所述网页内容文本特征对应的判别结果以及所述静态统计特征对应的判别结果的加权值得到所述网址伪数据的局部特征的判别结果;
[0023]采用第三类型判别器判别所述网址伪数据对应的全局特征的真伪,得到所述网址伪数据的全局特征的判别结果

[0024]在一实施例中,所述网址数据增强方法还包括:
[0025]基于交叉熵损失函数对所述第一类型判别器以及所述第三类型判别器进行优化;
[0026]基于最小二乘损失函数对所述第二类型判别器进行优化

[0027]在一实施例中,所述网址数据增强方法还包括:
[0028]将所述网址真实数据输入非生成式增强模块;
[0029]采用所述非生成式增强模块中的预设增强算子对所述网址真实数据对应的网址文本特征

所述网页标题文本特征以及所述网页内容文本特征进行增强处理,得到增强数据;
[0030]根据所述网址伪数据以及所述增强数据得到所述增强网址数据

[0031]此外,为实现上述目的,本专利技术还提供了一种网址数据增强系统,所述网址数据增强系统包括:
[0032]获取模块,用于获取网址真实数据和网址伪数据的全局特征以及局部特征,其中,所述局部特征包括静态统计特征

网址文本特征

网页标题文本特征和网页内容文本特征中的至少一个;
[0033]判别模块,用于将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度;
[0034]确定模块,用于当所述网址伪数据与所述网址真实数据的相似度达到预设阈值时,将所述网址伪数据确定为增强网址数据

[0035]此外,为实现上述目的,本专利技术还提供了一种终端设备,该终端设备包括:存储器

处理器及存储在所述存储器上并可在所述处理器上运行的网址数据增强程序,所述网址数据增强程序被所述处理器执行时实现上述的网址数据增强方法的步骤

[0036]此外,为实现上述目的,本专利技术还提供了一种计算机可读存储介质,其上存储有网址数据增强程序,所述网址数据增强程序被处理器执行时实现上述的网址数据增强方法的步骤

[0037]本申请实施例中提供的一种网址数据增强方法

系统

设备及存储介质的技术方案,由于采用了获取网址真实数据和网址伪数据的全局特征以及局部特征,将全局特征以及局部特征分别输入对应的判别器,通过所述判别器的输出结果确定网址伪数据与网址真实数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种网址数据增强方法,其特征在于,所述网址数据增强方法包括:获取网址真实数据和网址伪数据的全局特征以及局部特征,其中,所述局部特征包括静态统计特征

网址文本特征

网页标题文本特征和网页内容文本特征中的至少一个;将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度;当所述网址伪数据与所述网址真实数据的相似度达到预设阈值时,将所述网址伪数据确定为增强网址数据
。2.
如权利要求1所述的网址数据增强方法,其特征在于,所述获取网址真实数据和网址伪数据的全局特征以及局部特征的步骤包括:将经过高斯分布模型随机产生的噪声数据输入生成器,得到网址伪数据;对所述网址伪数据进行特征提取,得到所述网址伪数据的全局特征以及局部特征,以及对所述网址真实数据进行特征提取,得到所述网址真实数据的全局特征以及局部特征
。3.
如权利要求2所述的网址数据增强方法,其特征在于,所述将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度的步骤之后,还包括:当所述网址伪数据与所述网址真实数据的相似度未达到预设阈值时,返回执行所述将经过高斯分布模型随机产生的噪声数据输入生成器,得到网址伪数据的步骤
。4.
如权利要求1所述的网址数据增强方法,其特征在于,所述将所述全局特征以及局部特征分别输入对应的判别器,通过所述判别器确定所述网址伪数据与所述网址真实数据的相似度的步骤包括:将所述网址伪数据的局部特征输入对应的判别器,得到所述网址伪数据的局部特征的判别结果,以及采用全局判别器对所述网址伪数据的全局特征进行判别,得到所述网址伪数据的全局特征的判别结果;根据所述网址伪数据的局部特征的判别结果和所述网址伪数据的全局特征的判别结果的加权值确定所述网址伪数据的判别结果;将所述网址真实数据的局部特征输入对应的判别器,得到所述网址真实数据的局部特征的判别结果,以及采用全局判别器对所述网址真实数据的全局特征进行判别,得到所述网址真实数据的全局特征的判别结果;根据所述网址真实数据的局部特征的判别结果和所述网址真实数据的全局特征的判别结果的加权值确定所述网址真实数据的判别结果;根据所述网址伪数据的判别结果和所述网址真实数据的判别结果确定所述网址伪数据与所述网址真实数据的相似度
。5.
如权利要求4所述的网址数据增强方法,其特征在于,所述将所述网址伪数据的局部特征输入对应的判别器,得到所述网址伪数据的局部特征的判别结果,以及采用全局判别器对所述网址伪数据的全局特征进行判别,得到所述网址伪数据的全局特征的判别结果的步骤包括:采用第一类型判别器分别...

【专利技术属性】
技术研发人员:胡泽远罗琼李海传蒋健
申请(专利权)人:中国移动
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1