一种基于生成对抗网络的欺诈网址识别方法技术

技术编号:34177923 阅读:96 留言:0更新日期:2022-07-17 12:22
本发明专利技术涉及一种基于生成对抗网络的欺诈网址识别方法,属于大数据挖掘领域,包括获取合法网址和欺诈网址作为原始样本数据,对获取的数据进行预处理,并从处理后的样本数据中提取网址属性特征、网址JavaScript特征、网址页面特征和网址文本特征,对提取特征后的数据进行清洗操作;构建生成对抗网络的生成器模块和鉴别器模块;将处理后的网址数据集输入到模型中训练生成对抗网络;利用训练好的生成对抗网络增强原始网址数据集;利用增强过后的网址数据训练分类算法,完成欺诈网址识别。本发明专利技术提高了分类算法的准确度和稳定度。高了分类算法的准确度和稳定度。高了分类算法的准确度和稳定度。

【技术实现步骤摘要】
一种基于生成对抗网络的欺诈网址识别方法


[0001]本专利技术属于大数据挖掘领域,涉及一种基于生成对抗网络的欺诈网址识别方法。

技术介绍

[0002]利用机器学习分类算法完成欺诈网址的识别是当前比较常用的方法,主要是通过提取欺诈网址样本数据特征,训练合适的算法模型,解决欺诈网址识别的问题。为了提高分类算法识别的准确率,通常需要大量采集不同类型的欺诈网址数据作为样本训练算法,因为欺诈网址相比于正常网址有生命周期比较短、网页中有威胁用户安全的信息以及强制用户下载垃圾软件等特点,所以欺诈网址样本数据收集容易出现风险大和类别间不均衡等问题,进而导致分类算法训练不够充分,分类准确率不能达到理想的目标。
[0003]为了提高欺诈网址识别模型的准确率和稳定性,可以通过生成模型生成对应类别的网址数据,将原始数据与模型生成的数据进行结合训练分类算法,能够有效提高算法的性能。生成对抗网络模型,它能够学习高纬度、复杂的真实数据分布,即它不依赖于对真实数据分布的任何假设,可以简单地从隐变量空间生成真实样例。生成对抗网络的整体框架主要包括了两个不同的模块,一个生本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成对抗网络的欺诈网址识别方法,其特征在于:包括以下步骤:S1:收集网址原始数据,对原始数据进行预处理;从处理过后的网址数据中提取网址属性特征、网址JavaScript特征、网址页面特征和网址文本特征,并对其进行清洗操作;S2:将网址文本特征进行编码,同时对提取的四类网址特征进行转换形成一个四通道的特征图;S3:根据网址特征数据构建生成对抗网络的生成器模块和鉴别器模块,将步骤S2形成的特征图和编码过后的网址文本特征经过自注意力机制模块处理后,将其结合网址类别信息输入到全局鉴别器D1和网址文本特征鉴别器D5的网络模型中进行训练;将网址属性特征、网址JavaScript特征、网址页面特征结合网址类别信息分别输入到网址属性特征鉴别器D2、网址JavaScript特征鉴别器D3和网址页面特征鉴别器D4的网络模型中进行训练;将网址类别信息结合随机生成的噪声数据输入到生成器网络模型中进行训练;S4:设置模型损失函数的形式,根据不同鉴别器的内部结构,对全局鉴别器D1和网址文本特征鉴别器D5采用最小二乘损失函数形式,对网址属性特征鉴别器D2、网址JavaScript特征鉴别器D3和网址页面特征鉴别器D4采用交叉熵损失函数形式,并对各部分的参数进行优化;S5:训练生成对抗网络,首先固定生成器模块参数对鉴别器模块进行训练,最大化鉴别器区分真实样本数据和生成样本数据的能力,然后固定训练好的鉴别器模块参数对生成器模块进行训练,优化的方向是让鉴别器区分不出生成器生成的数据和真实样本数据,以此循环往复形成相互博弈的状态直到达到设置的终止条件;S6:利用训练好的生成对抗网络生成带标签的网址样本数据增强原始的网址数据集,并利用增强后的数据训练分类算法,完成欺诈网址识别模型的构建。2.根据权利要求1所述的基于生成对抗网络的欺诈网址识别方法,其特征在于:步骤S1中所述对原始数据进行预处理具体包括:对网址数据进行清洗,删除无效数据和异常数据,得到处理过后的网址数据集U;对网址数据集U进行分析,提取网址的属性特征、JavaScript特征、页面特征和文本特征,其中文本特征是用词的索引形式进行表示,形成网址特征向量Z(i)=(a,j,p,t),其中a表示网址属性特征向量、p表示网址页面特征向量、j表示网址JavaScript特征向量、t表示网址文本信息特征向量。3.根据权利要求1所述的基于生成对抗网络的欺诈网址识别方法,其特征在于:所述步骤S2具体包括:对提取的网址文本特征数据进行分析,经过分词、去停顿词处理后使用连续词袋技术对文本数据进行编码,根据词的索引在词库中提取对应的词向量数据,对不在词库中的词进行随机初始化,处理之后的文本数据表示为t
i
=[t
1i
,t
2i
,...,t
di
],其中t
i
代表词库中的某一个词,d表示词向量的维度,网址文本数据经过编码处理后形成矩阵t;将a、j、p经过全连接层处理后与矩阵t结合形成一张四通道的特征图X。4.根据权利要求1所述的基于生成对抗网络的欺诈网址识别方法,其特征在于:步骤S3中,将特征图X经过卷积层处理后得到三个新的特征图Q、K和V;然后计算Q与K的转置相乘的结果用来表示编码之后的特征图,对相关性矩阵进行归一化处理,将Q与K的转置相乘的结果经过softmax操作,得到注意力图;利用获取的注意力图与V相乘并进行求和操作,最后经过卷积层转换得到包含全局信息的特征图X,计算公式表示为:
其中α
i
表示特征之间的相似度,q
i
表示Q中的特征向量i,K
T
表示K的转置,d
q,k
表示Q与K的距离,表示归一化后的特征相似度,b
i
表示带有全部特征信息的特征向量,v
i
表示V中的特征向量i。5.根据权利要求1所述的基...

【专利技术属性】
技术研发人员:许国良魏安雒江涛
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1