基于多任务学习的小样本口令集合猜测方法技术

技术编号:35024342 阅读:15 留言:0更新日期:2022-09-24 22:55
本发明专利技术公开了一种基于多任务学习的小样本口令集合猜测方法,包括:对目标小样本口令集合和辅助训练口令集合进行预处理,获得每个口令集合的口令结构集合和数据段集合;构建多任务学习神经网络模型并利用目标小样本口令集合和辅助训练口令集合预处理后的口令结构集合进行多任务学习;利用目标小样本口令集合的口令结构集合对预训练后的神经网络模型进行训练;利用训练后的神经网络模型获得预测的口令结构集合;利用目标小样本口令集合的各数据段集合对预测的口令结构集合进行填充,生成猜测的口令集合。本发明专利技术利用多任务学习神经网络模型同时学习不同口令数据集,提高了口令猜测对小样本口令集合的破解率。测对小样本口令集合的破解率。测对小样本口令集合的破解率。

【技术实现步骤摘要】
基于多任务学习的小样本口令集合猜测方法


[0001]本专利技术属于网络安全
,具体涉及一种基于多任务学习的小样本口令集合猜测方法。

技术介绍

[0002]在整个社会的信息化进程中,互联网将人们生活的方方面面交织在一起,人们的日常生活、资产、个人信息等都被数字化,口令在互联网服务中的应用特别广泛。由于口令数据泄露和计算机计算力增强,口令猜测研究愈发深入,口令安全受到持续性威胁。口令猜测方法的本质是对口令数据集的分析,从统计的角度分析用户构成口令的规律,根据得到的规律猜测更多可能的口令。口令猜测需要分析和研究口令规律,找到安全问题,为指导设置更加安全的口令设置策略、评估口令的安全性提供理论依据。
[0003]已有的口令猜测方法大都基于数据驱动,猜测效果取决于训练数据的多少。一般来说,使用越多的口令数据会获得越好的猜测效果。由于不同口令数据集含有不同口令分布,因此大部分的口令猜测方法建立在单个数据集之上。在这种情况下,对在单个口令数据集进行分析的口令猜测方法只能捕获单个口令集合的特征,在进行跨数据集猜测时性能较弱。当猜测的口令集合没有大量的泄露数据或者猜测非传统口令策略产生的口令时,样本的稀疏性限制了数据密集型猜测方法的有效性。因此对一个小样本口令集合的口令猜测算法是一个有实用价值的研究方向,它解决了不能跨数据集训练、过度依赖单个数据集的问题,应用于对一个小样本口令集合的猜测,提高了对小样本口令集合的破解率。
[0004]Weir等人在文献“Password cracking using proba<br/>‑
bilistic context

free grammars[C]//2009 30th IEEE Symposium on Security and Privacy.IEEE,2009:391

405”中提出一种基于概率上下文无关文法(Probabilistic Context

Free Grammars,PCFG)的口令猜测方法。PCFG方法被提出的基础是,口令研究显示用户在设置口令时对某些口令结构和分段内容具有偏好,有一些很常见的口令结构,比如长度为6的数字字符串。因此PCFG方法将口令抽象化为口令结构,并统计口令中常见的口令结构,在猜测口令时首先选择出现概率最大的口令结构进行填充,在猜测初期可以达到很好的效果。
[0005]PCFG方法使用统计学中的上下文无关文法对口令进行建模,需要来自目标数据集的大量数据才能得到较为准确的分布,因此当猜测的目标小样本口令集合没有大量的泄漏数据、猜测非传统口令策略产生的口令或猜测的目标口令集的样本数量少时,样本的稀疏性限制了数据密集型方法的有效性。另外,由于不同口令集合的口令分布不同,PCFG方法猜测某个口令集合时难以借助其它口令集合的信息,因此PCFG方法在猜测小样本口令集合时性能下降。

技术实现思路

[0006]为了解决现有技术中存在的上述问题,本专利技术提供了一种基于多任务学习的小样本口令集合猜测方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0007]本专利技术的一个方面提供了一种基于多任务学习的小样本口令集合猜测方法,包括:
[0008]对目标小样本口令集合和辅助训练口令集合进行预处理,获得每个口令集合的口令结构集合、字母段集合、字母段掩码集合、数字段集合以及特殊字符段集合,所述辅助训练口令集合与所述目标小样本口令集合来自不同的口令集合;
[0009]构建多任务学习神经网络模型,利用目标小样本口令集合和辅助训练口令集合预处理后的口令结构集合对所述多任务学习神经网络模型进行多任务学习,得到预训练后的神经网络模型;
[0010]利用所述目标小样本口令集合的口令结构集合对所述预训练后的神经网络模型进行训练,获得训练后的神经网络模型;
[0011]利用训练后的神经网络模型获得预测的口令结构集合;
[0012]利用目标小样本口令集合的字母段集合、字母段掩码集合、数字段集合和特殊字符段集合对预测的口令结构集合进行填充,生成猜测的口令集合。
[0013]在本专利技术的一个实施例中,对目标小样本口令集合和辅助训练口令集合进行预处理,包括:
[0014]对目标小样本口令集合和辅助训练口令集合中的每个口令进行分段,提取每条口令的分段数据和口令结构,所述分段数据包括每条口令的字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据,所述口令结构包括当前口令所包含分段数据的类型以及分段数据的长度,所述字母段掩码数据用于记录字母段数据的大小写;
[0015]为所述目标小样本口令集合和所述辅助训练口令集合分别设置数据存储单元,所述数据存储单元包括口令结构字典、字母段字典、字母段掩码字典、数字段字典以及特殊字符段字典,分别用于存储对应口令集合的字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据及对应的频次,从而形成每个口令集合的口令结构集合、字母段集合、字母段掩码集合、数字段集合以及特殊字符段集合;
[0016]利用口令集合的字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据及对应的频次获得字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据的概率。
[0017]在本专利技术的一个实施例中,所述多任务学习神经网络模型包括共享层模块以及分别与所述共享层模块连接的多个特定任务层模块,其中,
[0018]所述共享层模块用于捕获口令集合中共享的口令结构知识,所述共享层模块包括一个输入层、两个RNN层、一个Linear层和一个Dropout层,所述输入层的输入为每个口令预处理获得的口令结构的向量形式;
[0019]所述特定任务层模块包括两个RNN层、一个Linear层、一个Softmax层以及一个输出层。
[0020]在本专利技术的一个实施例中,在将每个口令预处理获得的口令结构输入到所述共享层模块的输入层之前,包括:
[0021]采用独热编码对所述口令结构进行编码,获得口令结构的One

Hot向量形式。
[0022]在本专利技术的一个实施例中,将所述小样本口令集合的任务设置为0号任务,将所述辅助训练口令集合的任务设置为1到n号任务,每个任务的loss函数均一致,在每个任务进行训练时,使用所述共享层模块和所述特定任务层模块前向传播获得预测结果,随后通过
梯度反向传播更新所述共享层模块和所述特定任务层模块的参数。
[0023]在本专利技术的一个实施例中,所述多任务学习神经网络模型包括34种输入类型和34种输出类型,其中,
[0024]所述输入类型分别为B、L1、L2、L3、L4、L5、L6、L7、L8、L9、L
10
、L
11
、L
12
、L
13
、L
14
、D1、D2、D3、D4、D5、D6、D7、D8、D9、D
10
、D
11
、D
1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的小样本口令集合猜测方法,其特征在于,包括:对目标小样本口令集合和辅助训练口令集合进行预处理,获得每个口令集合的口令结构集合、字母段集合、字母段掩码集合、数字段集合以及特殊字符段集合,所述辅助训练口令集合与所述目标小样本口令集合来自不同的口令集合;构建多任务学习神经网络模型,利用目标小样本口令集合和辅助训练口令集合预处理后的口令结构集合对所述多任务学习神经网络模型进行多任务学习,得到预训练后的神经网络模型;利用所述目标小样本口令集合的口令结构集合对所述预训练后的神经网络模型进行训练,获得训练后的神经网络模型;利用训练后的神经网络模型获得预测的口令结构集合;利用目标小样本口令的字母段集合、字母段掩码集合、数字段集合和特殊字符段集合对预测的口令结构集合进行填充,生成猜测的口令集合。2.根据权利要求1所述的基于多任务学习的小样本口令集合猜测方法,其特征在于,对目标小样本口令集合和辅助训练口令集合进行预处理,包括:对目标小样本口令集合和辅助训练口令集合中的每个口令进行分段,提取每条口令的分段数据和口令结构,所述分段数据包括每条口令的字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据,所述口令结构包括当前口令所包含分段数据的类型以及分段数据的长度,所述字母段掩码数据用于记录字母段数据的大小写;为所述目标小样本口令集合和所述辅助训练口令集合分别设置数据存储单元,所述数据存储单元包括口令结构字典、字母段字典、字母段掩码字典、数字段字典以及特殊字符段字典,分别用于存储对应口令集合的字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据及对应的频次,从而形成每个口令集合的口令结构集合、字母段集合、字母段掩码集合、数字段集合以及特殊字符段集合;利用口令集合的字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据及对应的频次获得字母段数据、字母段掩码数据、数字段数据以及特殊字符段数据的概率。3.根据权利要求1所述的基于多任务学习的小样本口令集合猜测方法,其特征在于,所述多任务学习神经网络模型包括共享层模块以及分别与所述共享层模块连接的多个特定任务层模块,其中,所述共享层模块用于捕获口令集合中共享的口令结构知识,所述共享层模块包括一个输入层、两个RNN层、一个Linear层和一个Dropout层,所述输入层的输入为每个口令预处理获得的口令结构的向量形式;所述特定任务层模块包括两个RNN层、一个Linear层、一个Softmax层以及一个输出层。4.根据权利要求3所述的基于多任务学习的小样本口令集合猜测方法,其特征在于,在将每个口令预处理获得的口令结构输入到所述共享层模块的输入层之前,包括:采用独热编码对所述口令结构进行编码,获得口令结构的One

Hot向量形式。5.根据权利要求3所述的基于多任务学习的小样本口令集合猜测方法,其特征在于,将所述小样本口令集合的任务设置为0号任务,将所述辅助训练口令集合的任务设置为1到n号任务,每个任务的loss函数均一致,在每个任务进行训练时,使用所述共享层模块和所述特定任务层模块前向传播获得预测结果,随后通过梯度反向传播更新所述共享层模块和所
...

【专利技术属性】
技术研发人员:张跃宇耿宇王宁李赓李晖曹进王勇
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1