基于语料库提升小训练集猜测效率的口令猜测方法技术

技术编号:31767642 阅读:23 留言:0更新日期:2022-01-05 16:53
本发明专利技术公开了基于语料库提升小训练集猜测效率的口令猜测方法,涉及本发明专利技术涉及数据处理和预测技术领域。所述方法包括以下步骤:构建语料库Γ;基于语料库Γ,针对训练口令集PWD_TRAIN产生训练结果:口令猜测规则集合R,R中每条规则r的概率q(r),Γ中每个词汇w的概率p(w);根据训练结果和语料库Γ,产生猜测次数为S的字典D(S);检测D(S)对测试口令集PWD_TEST的破解率。本发明专利技术可以通过语料库Γ扩展训练集PWD_TRAIN中的词汇,有效提升训练集较小时对测试口令集的破解率。时对测试口令集的破解率。时对测试口令集的破解率。

【技术实现步骤摘要】
IEEE Trans. on Information Forensics and Security, vol.10, no.8, pp.1776

1791, 2015.)中,进一步加入了键盘串集合,并对语料库的词汇频率进行了Laplace平滑。在一定程度上弥补了原有PCFG方法按照字符类型分词的局限性,可以进一步丰富语料库的内容。虽然PCFG方法产生字典的速度较慢,但是可以使用蒙特卡洛采样方法(Dell'Amico, M. & Filippone, M., Monte Carlo Strength Evaluation: Fast and Reliable Password Checking, Proceedings of the 22Nd ACM SIGSAC Conference on Computer and Communications Security, ACM, 2015, 158

169.)有效估计该方法的猜测效率。
[0007]国外学者(Ji, S.; Yang, S.; Hu, X.; Han, W.; Li, Z. & Beyah, R., Zero

Sum Password Cracking Game: A Large

Scale Empirical Study on the Crackability, Correlation, and Security of Passwords, IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING, 2017, 14, 550

564. Ur, B.; Segreti, S. M.; Bauer, L.; Christin, N.; Cranor, L. F.; Komanduri, S.; Kurilova, D.; Mazurek

, M. L.; Melicher, W. & Shay, R. , Measuring Real

World Accuracies and Biases in Modeling Password Guessability, 24th USENIX Security Symposium, 2015.)对Markov过程、PCFG等方法进行详细的评测,发现在大多数情况下PCFG方法具有最高的猜测效率,而且能适应于不同的语言类型。因此,PCFG方法已经逐渐成为口令猜测学术研究的主流方法。此外,PCFG方法还可以用于定向攻击(Wang, D.; Zhang, Z.; Wang, P.; Yan, J. & Huang, X., Targeted Online Password Guessing, Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, ACM, 2016.),即根据用户的个人信息组合产生猜测口令集合。
[0008]PCFG方法综合了结构和语料两个层面的口令信息,具有较高的效率。但是它依然具有很大的局限性。主要表现在以下方面:1)在口令结构的描述上仅仅采用了字符类型作为区分口令词汇的标志,难以区分多个词汇构成的口令,例如,口令"ilovemike"都为小写字母,在PCFG中将被作为一个词汇使用,难以体现出口令内在的结构规律。2)除了键盘字符串外,PCFG所产生的词汇表仅仅来源于训练集。3)产生的结构也是训练集中所出现的结构。这直接导致PCFG方法对训练集的依赖程度很高,PCFG所产生的猜测字典不能包含在训练集中没有出现的口令词汇或结构模式。
[0009]综上所述,PCFG方法等方法具有较高的猜测效率和多种语言的适应能力。但是现有的口令猜测方法研究主要围绕针对大规模真实口令集合开展,对于小训练集学习方法的研究比较欠缺。其主要难点在于小训练集的口令数量有限,现有的训练方法缺少必要的词汇泛化和结构泛化能力,使得其能学习到的词汇和猜测规则非常有限。

技术实现思路

[0010]为了解决已有口令猜测方法在训练集规模较小时效果不佳的问题。本专利技术与传统的PCFG口令猜测方法相比具有以下改进:1)传统PCFG方法对训练口令的分词采用了按照字符类型方式,难以切割口令中同一类型字符的多个词汇。本专利技术使用基于语料库的分词方法,可以切分出口令中同一字符类型的词汇。2)PCFG方法的学习过程仅仅能发现在训练集中出现的词汇及其相应的概率,所产生的字典中也只能包含训练集中出现的词汇。在训练集较小时,所产生字典中口令的词汇有限,导致猜测效率不高。本专利技术基于已有的大规模自
然语言语料库,可以扩展训练集中没有出现的同类型词汇,并使用平滑方法计算语料库中所有词汇的概率,所产生的字典可以包含训练集中未出现的词汇。这样可以有效减少对训练集的依赖,在字典中扩展了同一类型的词汇。3)本专利技术在估算破解率时,首先估计指定猜测次数所对应概率,然后计算测试集每条口令的最大概率并与前述概率对比,大于前述概率者一定会出现在该方法所产生的字典中,可以有效提升破解率检测的效率。
[0011]本专利技术的目的至少通过如下技术方案之一实现。
[0012]基于语料库提升小训练集猜测效率的口令猜测方法,包括以下步骤:S1、构建包括四类语料集合的语料库Γ,并确定口令猜测规则的结构;S2、基于语料库Γ,针对口令训练集PWD_TRAIN中的训练口令pwd产生该口令的猜测规则r,得到多条口令猜测规则构成的口令猜测规则集合R;S3、基于语料库Γ和口令猜测规则集合R,计算语料库Γ中每条词汇w的概率,记为p(w,PWD_TRAIN),w∈Γ;计算口令猜测规则集合R中每条口令猜测规则r的概率,记为q(r, PWD_TRAIN),r∈R;S4、产生猜测次数为S的字典D(S),利用字典D(S)进行口令猜测。
[0013]进一步地,步骤S1中,构造具有以下特征的语料库Γ:特征1、语料库Γ中包括|Γ|个语料集合,Γ ={C
i
|1≤i≤|Γ|},其中C
i
为第i个语料集合;特征2、每个语料集合包括同一类型且长度相同的词汇;特征3、语料集合的词汇类型包括语言、国家和地区、通用以及暴力语料;语言类型语料包括不同语言(例如英语、俄语等)的词汇、姓氏和名字;国家和地区语料包括地名、电话号码;通用语料包括常见键盘字符序列、年份和日期格式;特征4、非暴力语料的单个语料集合中所有词汇长度相同,且大于等于4;特征5、暴力语料集合的长度小于等于3,并分为小写字母、大写字母、数字和特殊符号;暴力语料集合共计12个:长度为1~3的ASCII码小写字母[az_1], [az_2], [az_3](数量分别为26,262,263),长度为1~3的ASCII码大写字母[AZ_1], [AZ_2], [AZ_3](数量分别为26,262,263)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语料库提升小训练集猜测效率的口令猜测方法,其特征在于,包括以下步骤:S1、构建包括四类语料集合的语料库Γ,并确定口令猜测规则的结构;构造具有以下特征的语料库Γ:特征1、语料库Γ中包括|Γ|个语料集合,Γ ={C
i
|1≤i≤|Γ|},其中C
i
为第i个语料集合;特征2、每个语料集合包括同一类型且长度相同的词汇;特征3、语料集合的词汇类型包括语言、国家和地区、通用以及暴力语料;特征4、非暴力语料的单个语料集合中所有词汇长度相同,且大于等于4;特征5、暴力语料集合的长度小于等于3,并分为小写字母、大写字母、数字和特殊符号;特征6、语料库Γ中任意两个语料集合不包括相同的词汇;第i个语料集合C
i
中词汇的数量定义为|C
i
|,长度定义为l(C
i
);S2、基于语料库Γ,针对口令训练集PWD_TRAIN中的训练口令pwd产生该口令的猜测规则r,得到多条口令猜测规则构成的口令猜测规则集合R;S3、基于语料库Γ和口令猜测规则集合R,计算语料库Γ中每条词汇w的概率;计算口令猜测规则集合R中每条口令猜测规则r的概率;S4、产生猜测次数为S的字典D(S),利用字典D(S)进行口令猜测。2.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法,其特征在于,一条口令猜测规则r是由多个语料集合连接构成,口令猜测规则r描述为r=[C1]

[C
s
],C1,

,C
s
∈Γ;s表示口令猜测规则r的段数,记为d(r);称为口令猜测规则r的语料空间尺寸,记为S(r);|R|条互不相同的口令猜测规则r形成口令猜测规则集合R。3.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法,其特征在于,步骤S2中,口令训练集PWD_TRAIN包括若干条训练口令pwd,基于语料库Γ产生特定训练口令pwd的口令猜测规则r。4.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法,其特征在于,步骤S2中,基于语料库Γ构造单条训练口令pwd的有向无环图G=<V, E>,其中,有向无环图G中的每条边都是语料库Γ中的从该边的起点到终点的字符子串所属于的语料集合;产生有向无环图G中从起点到终点的所有路径,每个路径都对应训练口令pwd的一种分词方法,每种分词方法都对应一种猜测规则;从所有可能的猜测规则中选择最小段数的猜测规则作为对应训练口令pwd的口令猜测规则r,如果有多个猜测规则都具有最小的段数,则选择语料尺寸空间最小的猜测规则作为对应的口令猜测规则r;最终得到由多条口令猜测规则r构成的口令猜测规则集合R。5.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法,其特征在于,步骤S3中,口令猜测规则集合R中每条口令猜测规则r的概率,记为q(r, PWD_TRAIN),r∈R;口令猜测规则集合R中每条口令猜测规则r对应的概率具有以下特征:
1)口令猜测规则集合R中的每条口令猜测规则r均根据训练口令集PWD_TRAIN中每条训练口令pwd执行步骤S2产生;2)口令猜测规则集合R中每条口令猜测规则r的频率之和等于1;3)口令猜测规则集合R中每条口令猜测规则r的概率正比于其在训练口令集PWD_TRAIN中出现的频度。6.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法,其特征在于,步骤S3中,语料库Γ中每条词汇w的概率,记为p(w,PWD_TRAIN),w∈Γ;语料库Γ中每条词汇的概率具有以下特征:1)统计语料...

【专利技术属性】
技术研发人员:甘晓春陈猛陈虎李东
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1