【技术实现步骤摘要】
一种诈骗网站的识别方法、装置、存储介质和电子设备
[0001]本专利技术属于网络安全领域,特别是一种诈骗网站的识别方法、装置、存储介质和电子设备。
技术介绍
[0002]随着近年来国内互联网的发展,网站的数量日益增多。非正常、不安全的网站数量也逐渐增多,而且让人难以分辨,非正常网站包括恶意网站、钓鱼网站、诈骗网站等,一般用于发布虚假中奖信息、虚假新闻、虚假招聘信息,获取用户个人隐私等,给人们和社会带来的危害不容忽视。非正常网站作为对网络安全的最大威胁之一,在网络安全中,对其进行识别是确保网络安全的重中之重。
[0003]当下对于网络诈骗案件的解决办法多为案发后进行网站的分析,并对相似网站进行封锁,即诈骗行为发生后才予以封锁网站,此时对被害人已造成了一定的经济损失,因此在诈骗行为发生前将诈骗网站识别并封锁,可以有效制止犯罪行为,同时也可以避免被害人的经济损失,使得反诈措施由被动防御转为主动出击。
[0004]因此,如何提高诈骗网站识别的准确率,降低误判率,从而能够在一定程度上提高打击网络犯罪的效率,降低其打击成 ...
【技术保护点】
【技术特征摘要】
1.一种诈骗网站的识别方法,其特征在于,所述方法包括:获取诈骗网站的文本特征数据集和网络特征数据集;构建网站识别训练模型;基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。2.根据权利要求1所述的方法,其特征在于,所述获取诈骗网站的文本特征数据集和网络特征数据集,包括:提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表;根据所述词表,生成所述诈骗网站的文本特征数据集。3.根据权利要求2所述的方法,其特征在于,所述预设方法包括Bag of Word、Bi
‑
Gram、TF
‑
IDF以及分标签TF
‑
IDF特征向量表示方法。4.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,包括:当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型;根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标;根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。5.根据权利要求4所述的方法,其特征在于,所述超平面分类函数通过以下算式确定:其中sgn为符号函数,w为权重,T为矩阵转置符,φ为映射函数,x为数据项,ρ为超平面偏置项,α为权重,K(x)为核函数。6.根据权利要求5所述的方法,其特征在于,所述第一优化目标通过以下算式确定:其中,ω为权重,n为数据项个数,为ζ
i
为松弛因子,v为惩罚因子,ρ为超平面偏置项,w为
权重,φ为映射函数,x为数据项。7.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,还包括:当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型;根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。