基于语料库提升小训练集猜测效率的口令猜测方法技术

技术编号：31767642 阅读：23 留言：0更新日期：2022-01-05 16:53

本发明专利技术公开了基于语料库提升小训练集猜测效率的口令猜测方法，涉及本发明专利技术涉及数据处理和预测技术领域。所述方法包括以下步骤：构建语料库Γ；基于语料库Γ，针对训练口令集PWD_TRAIN产生训练结果：口令猜测规则集合R，R中每条规则r的概率q(r)，Γ中每个词汇w的概率p(w)；根据训练结果和语料库Γ，产生猜测次数为S的字典D(S)；检测D(S)对测试口令集PWD_TEST的破解率。本发明专利技术可以通过语料库Γ扩展训练集PWD_TRAIN中的词汇，有效提升训练集较小时对测试口令集的破解率。时对测试口令集的破解率。时对测试口令集的破解率。

全部详细技术资料下载

【技术实现步骤摘要】
IEEE Trans. on Information Forensics and Security, vol.10, no.8, pp.1776
‑
1791, 2015.)中，进一步加入了键盘串集合，并对语料库的词汇频率进行了Laplace平滑。在一定程度上弥补了原有PCFG方法按照字符类型分词的局限性，可以进一步丰富语料库的内容。虽然PCFG方法产生字典的速度较慢，但是可以使用蒙特卡洛采样方法（Dell'Amico, M. & Filippone, M., Monte Carlo Strength Evaluation: Fast and Reliable Password Checking, Proceedings of the 22Nd ACM SIGSAC Conference on Computer and Communications Security, ACM, 2015, 158
‑
169.）有效估计该方法的猜测效率。
[0007]国外学者（Ji, S.; Yang, S.; Hu, X.; Han, W.; Li, Z. & Beyah, R., Zero
‑
Sum Password Cracking Game: A Large
‑
Scale Empirical Study on the Crackability, Correlation, and Security of Passwords, IEEE TRANSACTIONS ...

【技术保护点】

【技术特征摘要】
1.基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，包括以下步骤：S1、构建包括四类语料集合的语料库Γ，并确定口令猜测规则的结构；构造具有以下特征的语料库Γ：特征1、语料库Γ中包括|Γ|个语料集合，Γ ={C
i
|1≤i≤|Γ|}，其中C
i
为第i个语料集合；特征2、每个语料集合包括同一类型且长度相同的词汇；特征3、语料集合的词汇类型包括语言、国家和地区、通用以及暴力语料；特征4、非暴力语料的单个语料集合中所有词汇长度相同，且大于等于4；特征5、暴力语料集合的长度小于等于3，并分为小写字母、大写字母、数字和特殊符号；特征6、语料库Γ中任意两个语料集合不包括相同的词汇；第i个语料集合C
i
中词汇的数量定义为|C
i
|，长度定义为l(C
i
)；S2、基于语料库Γ，针对口令训练集PWD_TRAIN中的训练口令pwd产生该口令的猜测规则r，得到多条口令猜测规则构成的口令猜测规则集合R；S3、基于语料库Γ和口令猜测规则集合R，计算语料库Γ中每条词汇w的概率；计算口令猜测规则集合R中每条口令猜测规则r的概率；S4、产生猜测次数为S的字典D(S)，利用字典D(S)进行口令猜测。2.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，一条口令猜测规则r是由多个语料集合连接构成，口令猜测规则r描述为r=[C1]
…
[C
s
]，C1,
…
,C
s
∈Γ；s表示口令猜测规则r的段数，记为d(r)；称为口令猜测规则r的语料空间尺寸，记为S(r)；|R|条互不相同的口令猜测规则r形成口令猜测规则集合R。3.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤S2中，口令训练集PWD_TRAIN包括若干条训练口令pwd，基于语料库Γ产生特定训练口令pwd的口令猜测规则r。4.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤S2中，基于语料库Γ构造单条训练口令pwd的有向无环图G=<V, E>，其中，有向无环图G中的每条边都是语料库Γ中的从该边的起点到终点的字符子串所属于的语料集合；产生有向无环图G中从起点到终点的所有路径，每个路径都对应训练口令pwd的一种分词方法，每种分词方法都对应一种猜测规则；从所有可能的猜测规则中选择最小段数的猜测规则作为对应训练口令pwd的口令猜测规则r，如果有多个猜测规则都具有最小的段数，则选择语料尺寸空间最小的猜测规则作为对应的口令猜测规则r；最终得到由多条口令猜测规则r构成的口令猜测规则集合R。5.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤S3中，口令猜测规则集合R中每条口令猜测规则r的概率，记为q(r, PWD_TRAIN)，r∈R；口令猜测规则集合R中每条口令猜测规则r对应的概率具有以下特征：
1）口令猜测规则集合R中的每条口令猜测规则r均根据训练口令集PWD_TRAIN中每条训练口令pwd执行步骤S2产生；2）口令猜测规则集合R中每条口令猜测规则r的频率之和等于1；3）口令猜测规则集合R中每条口令猜测规则r的概率正比于其在训练口令集PWD_TRAIN中出现的频度。6.根据权利要求1所述的基于语料库提升小训练集猜测效率的口令猜测方法，其特征在于，步骤S3中，语料库Γ中每条词汇w的概率，记为p(w，PWD_TRAIN)，w∈Γ；语料库Γ中每条词汇的概率具有以下特征：1）统计语料...

【专利技术属性】
技术研发人员：甘晓春，陈猛，陈虎，李东，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人