面向口令猜测的语料乘积规则的描述、生成与检测方法技术

技术编号:22783805 阅读:68 留言:0更新日期:2019-12-11 04:14
本发明专利技术公开了一种面向口令猜测的语料乘积规则的描述、生成与检测方法。所示方法包括以下步骤:定义语料库的约束条件;描述语料乘积规则;针对训练口令集中的每条训练口令产生单条口令语料乘积规则,并统计训练口令集合所产生的规则集合中不同语料乘积规则的频度;使用效费比指标对训练口令集合产生的语料乘积规则集合从高到低进行排序;根据口令猜测次数要求,从效费比从高到低的语料乘积规则序列中选择规则;检测语料乘积规则序列针对测试口令集的命中率。本发明专利技术具有命中率高、规则描述清楚、易于后续在线生成待猜测口令集合、可以快速检测语料乘积规则集合的命中率等优点。

Description, generation and detection of password guessing oriented corpus product rules

The invention discloses a description, generation and detection method of corpus product rules for password guessing. The method presented in this paper includes the following steps: defining the constraints of the corpus; describing the rules of corpus product; generating a single rule of corpus product for each training password in the training password set, and counting the frequency of different corpus product rules in the rule set generated by the training password set; using the cost-effectiveness index to generate the corpus product rule set from the high training password set According to the requirements of password guessing times, the rules are selected from the corpus product rule sequence with high to low cost-effectiveness ratio, and the hit rate of the corpus product rule sequence against the test password set is detected. The invention has the advantages of high hit rate, clear rule description, easy subsequent online generation of password set to be guessed, fast detection of hit rate of corpus product rule set, etc.

【技术实现步骤摘要】
面向口令猜测的语料乘积规则的描述、生成与检测方法
本专利技术涉及口令猜测
,具体涉及一种面向口令猜测的语料乘积规则的描述、生成与检测方法。
技术介绍
口令猜测的基本方法是不断尝试用户可能使用的口令,直至发现正确口令,或者达到预定猜测次数而放弃猜测。因此,要提高猜测的效率需要优先猜测用户使用可能性更高的口令。现有的口令猜测方法主要包括:暴力、碾压、Markov过程、概率上下文无关文法(PCFG)、语义模式等五种类型。暴力方式是最为传统的口令猜测方法,其主要缺陷是能猜测的口令长度较短。由于总猜测次数的限制,全键盘字符的暴力猜测长度往往不超过9个字符,仅仅包含小写字母和数字的暴力猜测长度往往不超过11个字符。碾压方法([Tat15]EminIslamTath,"Crackingmorepasswordshasheswithpatterns",IEEETrans.onInformationForensicsandSecurity,vol.10,no.8,pp.1656-1665,2015)是指根据口令变形规则(例如olchashcat中的rockyou-30000规则库)将源口令集变形成为待猜测的口令。这种口令猜测方法在实践中非常常用,但是它的有效性依赖于源口令集,对源口令集合中未出现的口令将无法完成有效猜测。Markov过程方法([Ma14]JerryMa,WeiningYang,MinLuo,NinghuiLi,"Astudyofprobabilisticpasswordmodels",inProc.IEEESymposiumonSecurityandPrivacy,pp.689-704,2014;[Dur15]MarkusDurmuth,FabianAngelstorf,ClaudeCastelluccia,DanielePerito,AbdelberiChaabane,"OMEN:FasterpasswordguessingusinganorderedMarkovenumerator",inProc.the7thSymposiumonESSoS,pp.119-132,2015)是建立训练口令集中字母之间的转移概率矩阵,并据此预测某个口令的概率。该方法的最大特点是不依赖于语料集,可以自主发现口令内常见的词汇,而且可以有效处理词汇中常见的变形形式。但是其缺点是需要高阶Markov过程以“记忆”较长的词汇内容,而且语义不甚明确。PCFG方法([Wei09]MattWeir,SudhirAffarwal,BrenodeMedeiros,BillGlodek,"Passwordcrackingusingprobabilisticcontext-freegrammars",inProc.30thIEEESymposiumonSecurityandPrivacy,2009,pp.391-405)的核心是将口令按照字符类型分段,并产生两级概率:第一级为不同字符类型分段的结构概率,第二级是语料库中每个单词的概率,并由此可以推测出特定结构和语料构成口令的概率。改进的PCFG方法([Hou15]ShivaHoushmand,SudhirAggarwal,RandyFlood,"NextGenPCFGpasswordcracking",IEEETrans.onInformationForensicsandSecurity,vol.10,no.8,pp.1776-1791,2015)是进一步加入了键盘串集合,并对语料库的词汇频率进行了Laplace平滑。前者在一定程度上弥补了原有PCFG方法按照字符类型分词的局限性,后者则可以进一步丰富语料库的内容,从而部分解决无法描述训练口令集中未出现词汇的问题。但是PCFG方法有两个重要缺陷:1)它按照口令的字符类型分段,对于包含多种字符类型的语料词汇难以提供统一的处理模式;2)它需要计算每个待猜测口令出现的概率,并按照各个口令的概率从高到低依次猜测,在口令猜测过程中引入了较大的计算开销,难以满足在线口令猜测过程的口令生成速度要求。语义模式([Ver14]RafaelVeras,ChristopherCollins,JulieThorpe,"Onthesemanticpatternsofpasswordsandtheirsecurityimpact",inProc.NetworkandDistributedSystemSecuritySymposium(NDSS),2014,pp.1-16)将根据语料库中语义明确的词汇对训练口令进行结构划分。在划分方法上,采用了词汇最大覆盖率作为分词依据,而且采用了不定长的语料和结构描述。与此同时,保持了PCFG方法中对语料库的每个词汇进行频率统计,并由此计算出每条口令概率的方法。该方法有两个主要问题:1)采用词汇最大覆盖率作为分词依据,有可能会导致口令分词不恰当;2)和PCFG方法相同,该方法需要预测每条待猜测口令的概率,并根据概率从高到底依次尝试,也将在口令猜测过程中产生较大的开销。
技术实现思路
为了解决已有口令猜测方法中存在这些不足之处,本专利技术提供了一种面向口令猜测的语料乘积规则的描述、生成与检测方法,即通过穷举每条训练口令可能的基于语料的描述方法,并根据各种描述方法的猜测次数和复杂度来选择合理的语料乘积规则;其次,累计训练口令集合中各种类型规则在训练口令集合中的出现频度;然后,使用效费比指标对上述规则集合进行排序,并根据口令猜测数形成最终的语料乘积规则序列;最后,评价语料乘积规则序列对测试口令集的命中率。本专利技术的目的至少通过如下技术方案之一实现。面向口令猜测的语料乘积规则的描述、生成与检测方法,包括以下步骤:S1、定义语料库的约束条件;S2、描述语料乘积规则;S3、针对训练口令集P中的每条训练口令p产生单条口令对应的语料乘积规则,并形成训练口令集P对应的语料乘积规则及其出现频度的集合T;T中的元素为二元组(r,f),其中r为规则,f为规则r出现的频度;S4、使用效费比指标对规则集合T进行排序,得到语料乘积规则序列R;S5、根据外部输入的口令猜测次数S,从R中选择语料乘积规则,形成总猜测次数小于S的口令猜测规则序列RS;S6、检测总猜测次数小于S的口令猜测规则序列RS针对测试口令集Q的命中率。进一步地,步骤S1中,所述语料库的约束条件包括:1.1)、语料库Γ由若干语料集合构成;1.2)、每个语料集合的词汇具有相同的属性和长度,数量不超过M条(M可以设置为6000或其他合理的预先固定值),且词汇的字符类型不受约束;1.3)、两个语料集合之间没有相同的词汇;1.4)、语料库中包括小写字母语料集合[az]、大写字母语料集合[AZ]、数字语料集合[09]和特殊符号语料集合[SP],分别对应ASCII码中的小写字母、大写字母、数字和不包含上述类型的其他可打印字符。语料库Γ包含了N个语料集合,使用Ci表示第i个语料集合,其中i=1…N。本文档来自技高网
...

【技术保护点】
1.面向口令猜测的语料乘积规则的描述、生成与检测方法,其特征在于,包括以下步骤:/nS1、定义语料库的约束条件;/nS2、描述语料乘积规则;/nS3、针对训练口令集

【技术特征摘要】
1.面向口令猜测的语料乘积规则的描述、生成与检测方法,其特征在于,包括以下步骤:
S1、定义语料库的约束条件;
S2、描述语料乘积规则;
S3、针对训练口令集P中的每条训练口令p产生单条口令对应的语料乘积规则,并形成训练口令集P对应的语料乘积规则及其出现频度的集合T;T中的元素为二元组(r,f),其中r为规则,f为规则r出现的频度;
S4、使用效费比指标对规则集合T进行排序,得到语料乘积规则序列R;
S5、根据外部输入的口令猜测数S,从R中选择语料乘积规则,形成总猜测次数小于S的口令猜测规则序列RS;
S6、检测总猜测次数不超过S的口令猜测规则序列RS针对测试口令集Q的命中率。


2.根据权利要求1所述的面向口令猜测的语料乘积规则的描述、生成与检测方法,其特征在于,步骤S1中,所述语料库的约束条件包括:
1.1)、语料库Γ由若干语料集合构成;
1.2)、每个语料集合的词汇具有相同的属性和长度,数量不超过M条,且词汇的字符类型不受约束;
1.3)、两个语料集合之间没有相同的词汇;
1.4)、语料库中包括小写字母语料集合[az]、大写字母语料集合[AZ]、数字语料集合[09]和特殊符号语料集合[SP],分别对应ASCII码中的小写字母、大写字母、数字和不包含上述类型的其他可打印字符。


3.根据权利要求1所述的面向口令猜测的语料乘积规则的描述、生成与检测方法,其特征在于,步骤S2中,所述语料乘积规则包括:
2.1)、语料乘积规则由若干语料集合组成;
2.2)、语料乘积规则所对应的猜测口令集合为此规则中所有语料集合的笛卡尔乘积,此规则的猜测次数为上述笛卡尔乘积集合的元素数;
2.3)、一条语料乘积规则所对应的猜测口令集合中所有口令的长度相同。


4.根据权利要求1所述的面向口令猜测的语料乘积规则的描述、生成与检测方法,其特征在于,所述步骤S3包括以下步骤:
S3.1、对训练口令集P中的一条训练口令p,穷举基于语料库Γ所有能够产生p的语料乘积规则,然后在这些语...

【专利技术属性】
技术研发人员:陈虎颜锐荣
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1