一种基于深度学习的社工评估数据生成方法技术

技术编号:32510821 阅读:20 留言:0更新日期:2022-03-02 10:55
本发明专利技术公开了一种基于深度学习的社工评估数据生成方法,包括以下步骤:S1、页面数据获取:通过爬虫技术和人工手动模式收集钓鱼邮件数据;S2、页面特征工程:对钓鱼邮件数据进行清洗脏数据、补全缺失值、降维,去除低频词汇及停用词后生成统一格式的整理数据;S3、词向量模型生成:使用神经网络对整理数据进行自然语言处理,将整理数据进行编号生成词向量,通过对词向量进行训练拟合成词向量模型;S4、目标序列获取:通过Seq2Seq模型对词向量模型进行训练,得到长度变化的目标序列;S5、数据生成:根据目标序列结合用户行为习惯生成社工评估数据。本发明专利技术能够提高识别钓鱼邮件的能力,用于提高人们的信息安全意识水平。提高人们的信息安全意识水平。提高人们的信息安全意识水平。

【技术实现步骤摘要】
一种基于深度学习的社工评估数据生成方法


[0001]本专利技术涉及网络数据安全
,具体涉及一种深度学习的社工评估数据生成方法。

技术介绍

[0002]大数据时代,网络安全仍是举足轻重的话题。在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。为了增加人们的信息安全意识,提高识别钓鱼邮件的能力,针对性研究钓鱼数据生成技术,用于提高人们的信息安全意识水平。
[0003]申请号为20111002089.6公开了一种基于文本特征分析的钓鱼邮件检测方法,去掉邮件中的非文本内容;利用了邮件解析器对邮件进行解析;利用了正则表达式算法提取了邮件中的网站链接;再次利用正则标定算法提取了链接中的相关特征;利用域名注册检索引擎,得到了网站注册时间特征。运用这些所提取的文本特征,组成邮件的特征向量。通过实验,证明能够提高钓鱼邮件的精度和召回率,并节省程序运行的时间和开销。
[0004]申请号为201910598350.5公开了一种恶意钓鱼邮件的识别方法及装置,包括:获取邮件,从邮件中提取多个第一特征信息集,将若干第一特征信息输入分类器,以使分类器根据若干第一特征信息,对邮件进行分类;当邮件的分类结果为恶意邮件类时,判定邮件为恶意钓鱼邮件。

技术实现思路

[0005]本专利技术是为了解决现有技术中人们在使用互联网数据时无法及时识别钓鱼邮件而存在安全隐患的技术问题,提供一种深度学习的社工评估数据生成方法,能够欧提高识别钓鱼邮件的能力,用于提高人们的信息安全意识水平。
[0006]本专利技术提供一种基于深度学习的社工评估数据生成方法,包括以下步骤:
[0007]S1、页面数据获取:通过爬虫技术和人工手动模式收集钓鱼邮件数据;
[0008]S2、页面特征工程:对钓鱼邮件数据进行清洗脏数据、补全缺失值、降维,去除低频词汇及停用词后生成统一格式的整理数据;
[0009]S3、词向量模型生成:使用神经网络对整理数据进行自然语言处理,将整理数据进行编号生成词向量,通过对词向量进行训练拟合成词向量模型;
[0010]S4、目标序列获取:通过Seq2Seq模型对词向量模型进行训练,得到长度变化的目标序列;
[0011]S5、数据生成:根据目标序列结合用户行为习惯生成社工评估数据。
[0012]seq2seq模型是一个翻译模型,即把一个语言序列翻译成另一种语言序列,整个处理过程是通过使用深度神经网络LSTM(长短记忆网络),或者RNN(递归神经网络)将一个序列作为输入影射为另外一个输出序列。
[0013]本专利技术所述的一种基于深度学习的社工评估数据生成方法,作为优选方式,步骤S3进一步包括以下步骤:
[0014]S31、根据整理数据创建词库表;
[0015]S32、对词库表中的词进行编号生成词向量;
[0016]S33、通过对词库表中词向量进行训练,聚集语义功能相近的字并缩短近义词之间的向量空间距离,拟合成词向量模型。
[0017]本专利技术所述的一种基于深度学习的社工评估数据生成方法,作为优选方式,步骤S4进一步包括以下步骤:
[0018]S41、对词向量模型进行分析处理,建立词典;
[0019]S42、将词典输入Seq2Seq模型进行训练,得到长度变化的目标序列。
[0020]本专利技术所述的一种基于深度学习的社工评估数据生成方法,作为优选方式,步骤S42进一步包括以下步骤:
[0021]S421、编码器通过不断将上一个时刻的输出作为当前时刻的输入,共享神经网络单元和参数,将长度变化的输入序列表示成固定维度的向量;
[0022]S422、解码器将编码器的中间结果作为输入,通过解码器单元的计算不断输出解码结果,直至遇到终止符为止,得到长度变化的目标序列。
[0023]本专利技术所述的一种基于深度学习的社工评估数据生成方法,作为优选方式,Seq2Seq模型包括编码器和解码器。
[0024]本专利技术所述的一种基于深度学习的社工评估数据生成方法,作为优选方式,解码器为RNN。
[0025]本专利技术具有以下优点:
[0026](1)生成数据质量大幅度提高;
[0027](2)可动态的根据用户行为习惯动态生成数据;
[0028](3)减去了一部分编写规则人员的工作;
[0029](4)生成数据的效率进一步提高;
[0030](5)解决了依赖于人的经验或者关键词生成钓鱼数据的问题。
附图说明
[0031]图1为一种基于深度学习的社工评估数据生成方法流程图;
[0032]图2为一种基于深度学习的社工评估数据生成方法词向量模型生成流程图;
[0033]图3为一种基于深度学习的社工评估数据生成方法目标序列获取流程图;
[0034]图4为一种基于深度学习的社工评估数据生成方法Seq2Seq模型训练流程图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0036]实施例1
[0037]如图1所示,一种基于深度学习的社工评估数据生成方法,包括以下步骤:
[0038]S1、页面数据获取:通过爬虫技术和人工手动模式收集钓鱼邮件数据;
[0039]S2、页面特征工程:对钓鱼邮件数据进行清洗脏数据、补全缺失值、降维,去除低频词汇及停用词后生成统一格式的整理数据;
[0040]S3、词向量模型生成:使用神经网络对整理数据进行自然语言处理,将整理数据进行编号生成词向量,通过对词向量进行训练拟合成词向量模型;如图2所示,步骤S3进一步包括以下步骤:
[0041]S31、根据整理数据创建词库表;
[0042]S32、对词库表中的词进行编号生成词向量;
[0043]S33、通过对词库表中词向量进行训练,聚集语义功能相近的字并缩短近义词之间的向量空间距离,拟合成词向量模型;
[0044]S4、目标序列获取:通过Seq2Seq模型对词向量模型进行训练,得到长度变化的目标序列;其中,Seq2Seq模型包括编码器和解码器,解码器为RNN;如图3所示,步骤S4进一步包括以下步骤:
[0045]S41、对词向量模型进行分析处理,建立词典;
[0046]S42、将词典输入Seq2Seq模型进行训练,得到长度变化的目标序列;如图4所示,步骤S42进一步包括以下步骤:
[0047]S421、编码器通过不断将上一个时刻的输出作为当前时刻的输入,共享神经网络单元和参数,将长度变化的输入序列表示成固定维度的向量;
[0048]S422、解码器将编码器的中间结果作为输入,通过解码器单元的计算不断输出解码结果,直至遇到终止符<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的社工评估数据生成方法,其特征在于:包括以下步骤:S1、页面数据获取:通过爬虫技术和人工手动模式收集钓鱼邮件数据;S2、页面特征工程:对所述钓鱼邮件数据进行清洗脏数据、补全缺失值、降维,去除低频词汇及停用词后生成统一格式的整理数据;S3、词向量模型生成:使用神经网络对所述整理数据进行自然语言处理,将所述整理数据进行编号生成词向量,通过对所述词向量进行训练拟合成词向量模型;S4、目标序列获取:通过Seq2Seq模型对所述词向量模型进行训练,得到长度变化的目标序列;S5、数据生成:根据所述目标序列结合用户行为习惯生成社工评估数据。2.根据权利要求1所述的一种基于深度学习的社工评估数据生成方法,其特征在于:步骤S3进一步包括以下步骤:S31、根据所述整理数据创建词库表;S32、对所述词库表中的词进行编号生成词向量;S33、通过对所述词库表中所述词向量进行训练,聚集语义功能相近的字并缩短近义词之间的向量空间距离,拟合成所...

【专利技术属性】
技术研发人员:谢鑫任玉坤何召阳何晓刚周欢朱伟光
申请(专利权)人:北京墨云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1