一种基于深度学习的社工评估数据生成方法技术

技术编号：32510821 阅读：20 留言：0更新日期：2022-03-02 10:55

本发明专利技术公开了一种基于深度学习的社工评估数据生成方法，包括以下步骤：S1、页面数据获取：通过爬虫技术和人工手动模式收集钓鱼邮件数据；S2、页面特征工程：对钓鱼邮件数据进行清洗脏数据、补全缺失值、降维，去除低频词汇及停用词后生成统一格式的整理数据；S3、词向量模型生成：使用神经网络对整理数据进行自然语言处理，将整理数据进行编号生成词向量，通过对词向量进行训练拟合成词向量模型；S4、目标序列获取：通过Seq2Seq模型对词向量模型进行训练，得到长度变化的目标序列；S5、数据生成：根据目标序列结合用户行为习惯生成社工评估数据。本发明专利技术能够提高识别钓鱼邮件的能力，用于提高人们的信息安全意识水平。提高人们的信息安全意识水平。提高人们的信息安全意识水平。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的社工评估数据生成方法

[0001]本专利技术涉及网络数据安全
，具体涉及一种深度学习的社工评估数据生成方法。

技术介绍

[0002]大数据时代，网络安全仍是举足轻重的话题。在海量信息中，不乏非法分子利用网络骗取用户信任并从中获利，钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似，没有安全意识的网民容易因此上当受骗，造成严重后果。为了增加人们的信息安全意识，提高识别钓鱼邮件的能力，针对性研究钓鱼数据生成技术，用于提高人们的信息安全意识水平。
[0003]申请号为20111002089.6公开了一种基于文本特征分析的钓鱼邮件检测方法，去掉邮件中的非文本内容；利用了邮件解析器对邮件进行解析；利用了正则表达式算法提取了邮件中的网站链接；再次利用正则标定算法提取了链接中的相关特征；利用域名注册检索引擎，得到了网站注册时间特征。运用这些所提取的文本特征，组成邮件的特征向量。通过实验，证明能够提高钓鱼邮件的精度和召回率，并节省程序运行的时间和开销。
[0004]申请号为201910598350.5公开了一种恶意钓鱼邮件的识别方法及装置，包括：获取邮件，从邮件中提取多个第一特征信息集，将若干第一特征信息输入分类器，以使分类器根据若干第一特征信息，对邮件进行分类；当邮件的分类结果为恶意邮件类时，判定邮件为恶意钓鱼邮件。

技术实现思路

[0005]本专利技术是为了解决现有技术中人们在使用互联网数据时无法及时识别钓鱼邮件而存在安全隐患的技术问题，提供一种深...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的社工评估数据生成方法，其特征在于：包括以下步骤：S1、页面数据获取：通过爬虫技术和人工手动模式收集钓鱼邮件数据；S2、页面特征工程：对所述钓鱼邮件数据进行清洗脏数据、补全缺失值、降维，去除低频词汇及停用词后生成统一格式的整理数据；S3、词向量模型生成：使用神经网络对所述整理数据进行自然语言处理，将所述整理数据进行编号生成词向量，通过对所述词向量进行训练拟合成词向量模型；S4、目标序列获取：通过Seq2Seq模型对所述词向量模型进行训练，得到长度变化的目标序列；S5、数据生成：根据所述目标序列结合用户行为习惯生成社工评估数据。2.根据权利要求1所述的一种基于深度学习的社工评估数据生成方法，其特征在于：步骤S3进一步包括以下步骤：S31、根据所述整理数据创建词库表；S32、对所述词库表中的词进行编号生成词向量；S33、通过对所述词库表中所述词向量进行训练，聚集语义功能相近的字并缩短近义词之间的向量空间距离，拟合成所...

【专利技术属性】
技术研发人员：谢鑫，任玉坤，何召阳，何晓刚，周欢，朱伟光，
申请(专利权)人：北京墨云科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人