当前位置: 首页 > 专利查询>复旦大学专利>正文

一种参数化混合模型的口令猜测方法技术

技术编号:28623653 阅读:15 留言:0更新日期:2021-05-28 16:19
本发明专利技术属于口令安全技术领域,具体为一种参数化混合模型的口令猜测方法。本发明专利技术包括以下三个步骤:利用训练集生成优化的PCFG和Markov口令猜测模型、根据最优的参数化策略分配口令猜测数、根据分配的猜测数生成备选口令集。本发明专利技术利用利用口令训练集生成优化后的PCFG和Markov口令猜测模型,然后根据最优的参数化策略给优化后的PCFG和Markov模型分配猜测数,最后按照分配的猜测数生成备选口令集。此外,本发明专利技术还理论证明了最优的参数化策略可以保证最终生成的备选口令集的最优性。本发明专利技术方法具有良好的普适性,可应用于不同特点的口令数据集;方法给出的参数化策略从理论证明了其最优性,可以保证生成备选口令集的最优性。

【技术实现步骤摘要】
一种参数化混合模型的口令猜测方法
本专利技术属于口令安全
,具体为一种参数化混合模型的口令猜测方法。
技术介绍
文本口令是保护个人信息和财产的典型认证方式。虽然研究人员已经提出了多种身份认证方法(例如基于指纹的身份认证)来尝试替代文本口令,但是由于口令在用户可用性方面的显著优势,用户短期内还不会放弃使用文本口令。近年来,许多网站发生了数据库泄漏事件,如天涯、CSDN。数据库泄漏事件使得大量的用户口令数据遭到黑客窃取,而大量的真实数据使得基于数学概率模型的数据驱动口令猜测成为了可能,这意味着黑客能够针对用户口令实施更高效的猜测攻击,严重危害着用户口令的安全。为了更好地评估口令的安全强度,研究人员提出了一些高效的概率口令猜测方法(如基于概率上下文无关文法的猜测方法、基于马尔可夫的猜测方法)来模拟黑客攻击,并把用户口令被猜中所需要的猜测数作为其安全强度的依据。近年来,研究人员对上述概率口令猜测方法提出了若干优化方案。对于基于概率上下文无关文法(PCFG)的猜测方法,优化可以分为两类:(1)使用外部信息(如语义信息或者个人信息);(2)使用更细粒度的预定义模式(如键盘模式)。使用外部信息的典型方法有语义PCFG,而使用更细粒度的预定义模式的典型方法有PCFGv4.1。这些优化方法可以更好地学习用户口令的组成,从而能够生成更接近用户习惯的口令猜测。对于基于马尔可夫的猜测方法,研究人员采用平滑方法来解决稀疏性问题,提高了猜测效率,并提出了不同阶数的马尔可夫模型(其中效果好且常用的是3阶马尔可夫模型,即4-gramMarkov)。目前并未有人提出一种对不同概率猜测模型进行有效结合的口令猜测方法,多数已有方法针对单一模型进行了模型设计上的改进或者简单地从理论评估的角度提出了将多种模型一并考虑的理想的性能上界。单一模型的使用忽视了不同概率猜测模型在口令猜测优势上的不同,也会使得口令强度评估的评估不准确。而理想性能上界的分析并没有从实际可行的角度提出混合模型的口令猜测方法,缺乏实际可行的攻击方式也会导致用户对于这种理想性能上界的重视程度不高。
技术实现思路
本专利技术的目的在于提出一种用户实际可用的、能够结合不同猜测模型优势的参数化混合模型的高效口令猜测方法。本专利技术提出的参数化混合模型的口令猜测方法,根据口令的构成字符种类定义口令的类别,利用PCFG和Markov两类模型针对一类字符构成的口令和两类及以上字符构成的口令不同的猜测优势,训练优化的PCFG模型来猜测两类及以上字符构成的口令,训练Markov模型来猜测一类字符构成的口令,从而更好地发挥了不同猜测模型的猜测优势。本专利技术提出的参数化混合模型的口令猜测方法,应用了最优的参数化分配策略。该分配策略可以根据训练集中不同类别口令的分布特征,对方法中的不同模型进行猜测数的分配,实现对猜测资源的最优利用。本专利技术提供的参数化混合模型的口令猜测方法,具体步骤为:步骤一、利用训练集训练优化的PCFG和Markov口令猜测模型训练过程分为两部分:训练优化的PCFG模型和训练Markov模型。利用输入的训练集全集对优化的PCFG模型进行训练,并过滤得到的口令结构;利用输入的训练集中一类字符构成的口令对Markov模型进行训练。步骤二、根据最优的参数化策略,分配口令猜测数根据输入的总猜测数以及训练集中的一类字符构成的口令所占的比例,计算得到Markov模型的分配猜测数,并将剩下的分配猜测数作为优化的PCFG模型的分配猜测数。步骤三、根据分配的猜测数生成备选口令集利用训练好的优化PCFG和Markov口令猜测模型,以及为两者分配的猜测数,分别生成两类及以上字符构成的备选口令集和一类字符构成的备选口令集,最终两者合并得到输入的总猜测数规模的备选口令集。本专利技术中,所述的优化的PCFG为综合了当前最新的PCFGv4.1和语义PCFG后的方法,主要综合的是两者针对口令中的连续英文字母片段的分词处理,具体分为以下步骤:(1)对连续的英文字母片段使用PCFGv4.1进行分词,得到分词后的一段或多段英文字母片段;对同样的连续的英文字母片段也使用语义PCFG进行分词,得到分词后的一段或多段英文字母片段;(2)针对上述结果进行权衡以选择更优的分词结果:如果PCFGv4.1分词结果仅有一段,而语义PCFG分词结果有多段,选择分出的单词在训练集中出现的平均频度更高的分词结果;如果PCFGv4.1分词结果有多段,而语义PCFG分词结果仅有一段,检查原英文字母片段是否在英文常用词字典中,如果在,使用语义PCFG的分词结果,反之使用PCFGv4.1的分词结果;如果PCFGv4.1分词结果有多段,而语义PCFG分词结果也有多段,但两者的内容不一样,选择分出的单词在训练集中出现的平均频度更高的分词结果。本专利技术中,所使用Markov为4-gramMarkov,即使用字符串中前3个出现的字符来预测下一个出现字符概率的Markov模型。本专利技术中,PCFGv4.1由Weir等人于2019年提出,对连续的英文字母片段使用的是基于训练集单词频度的multi-word分词方法,即根据构成连续英文字母片段的短的单词决定是否对单词进行切分;语义PCFG由Veras等人于2014年提出的,使用的是自然语言处理领域的wordsegment方法,即将口令中的连续英文字母片段看作自然语言处理中语句进行分词处理。当两种方法的分词结果一致的时候,不需要作额外的处理,需要权衡的是两种分词方法发生冲突时的情况,具体分为以下三种情况:(1)如果PCFGv4.1分词结果仅有一段,而语义PCFG分词结果有多段,则选择分出的单词在训练集中出现的平均频度更高的分词结果;(2)如果PCFGv4.1分词结果有多段,而语义PCFG分词结果仅有一段,检查原英文字母片段是否在英文常用词字典中,如果在,使用语义PCFG的分词结果,反之则使用PCFGv4.1的分词结果;(3)如果PCFGv4.1分词结果有多段,而语义PCFG分词结果也有多段,但两者的内容不一样,则选择分出的单词在训练集中出现的平均频度更高的分词结果。本专利技术步骤一中,对于训练优化的PCFG模型时的结构过滤操作,具体为:(1)由于在表示口令结构时,优化的PCFG模型在表示结构时沿用PCFGv4.1使用的6种字符:“A”、“D”、“O”、“Y”、“K”和“X”。其中“A”表示英文字母,“D”表示数字,“O”表示特殊符号;“Y”表示年份模式,由纯数字构成;“K”表示键盘模式,由两类及以上字符构成;“X”表示上下文模式,也由两类及以上字符构成;(2)因此需要过滤的是由一类字符构成的口令训练得到的结构,此结构所表示的字符种类应该也只有一种。结合表示结构的6种字符的含义,需要过滤的结构是:由“A”构成的结构、由“D”构成的结构、由“O”构成的结构、由“Y”构成的结构以及由“D”和“Y”构成的结构。而在训练Markov模型时,需要的操作是从训练集中提取出仅由一本文档来自技高网
...

【技术保护点】
1.一种参数化混合模型的口令猜测方法,其特征在于,具体步骤如下:/n步骤一、利用训练集生成优化的PCFG和Markov口令猜测模型/n利用输入的训练集全集对优化的PCFG模型进行训练,并过滤得到的口令结构;利用输入的训练集中一类字符构成的口令对Markov模型进行训练;/n步骤二、根据最优的参数化策略,分配口令猜测数/n根据输入的总猜测数以及训练集中的一类字符构成的口令所占的比例,计算得到Markov模型的分配猜测数,并将剩下的分配猜测数作为优化的PCFG模型的分配猜测数;/n步骤三、根据分配的猜测数生成备选口令集/n利用训练好的优化PCFG和Markov口令猜测模型,以及为两者分配的猜测数,分别生成两类及以上字符构成的备选口令集和一类字符构成的备选口令集,最终两者合并得到输入的总猜测数规模的备选口令集。/n

【技术特征摘要】
1.一种参数化混合模型的口令猜测方法,其特征在于,具体步骤如下:
步骤一、利用训练集生成优化的PCFG和Markov口令猜测模型
利用输入的训练集全集对优化的PCFG模型进行训练,并过滤得到的口令结构;利用输入的训练集中一类字符构成的口令对Markov模型进行训练;
步骤二、根据最优的参数化策略,分配口令猜测数
根据输入的总猜测数以及训练集中的一类字符构成的口令所占的比例,计算得到Markov模型的分配猜测数,并将剩下的分配猜测数作为优化的PCFG模型的分配猜测数;
步骤三、根据分配的猜测数生成备选口令集
利用训练好的优化PCFG和Markov口令猜测模型,以及为两者分配的猜测数,分别生成两类及以上字符构成的备选口令集和一类字符构成的备选口令集,最终两者合并得到输入的总猜测数规模的备选口令集。


2.根据权利要求1所述的参数化混合模型的口令猜测方法,其特征在于,所述优化的PCFG为综合当前最新的PCFGv4.1和语义PCFG后的方法,主要综合的是两者针对口令中的连续英文字母片段的分词处理,具体分为以下步骤:
(1)对连续的英文字母片段使用PCFGv4.1进行分词,得到分词后的一段或多段英文字母片段;对同样的连续的英文字母片段也使用语义PCFG进行分词,得到分词后的一段或多段英文字母片段;
(2)针对上述结果进行权衡以选择更优的分词结果:
如果PCFGv4.1分词结果仅有一段,而语义PCFG分词结果有多段,选择分出的单词在训练集中出现的平均频度更高的分词结果;
如果PCFGv4.1分词结果有多段,而语义PCFG分词结果仅有一段,检查原英文字母片段是否在英文常用词字典中,如果在,使用语义PCFG的分词结果,反之使用PCFGv4.1的分词结果;
如果PCFGv4.1分词结果...

【专利技术属性】
技术研发人员:韩伟力张俊杰徐铭
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1