一种基于综合分段的用户口令建模与强度评估方法技术

技术编号：28036171 阅读：43 留言：0更新日期：2021-04-09 23:18

本发明专利技术属于数据安全技术领域，具体为一种基于综合分段的用户口令建模与强度评估方法。本发明专利技术包括三个步骤：识别用户口令中的连续段、识别用户口令中的不连续段、评估用户口令强度。本发明专利技术对口令数据集中存在的网络语、键盘模式、简写、基本词识别为口令中的连续段，使用拓扑排序方法来将口令中的混合词识别为不连续段，对待评估用户口令穷举所有口令结构来评估用户口令的强度。本发明专利技术的优点在于：具有良好的普适性，可应用于多个不同地域、不同网站的口令数据集对用户口令进行建模；本方法在段的连续性受到破坏时，如自然语言单词中插入数字以破坏单词连续性，仍然可以识别并抽取为连续的段。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于综合分段的用户口令建模与强度评估方法
本专利技术属于数据安全
，具体涉及基于综合分段的用户口令建模与强度评估方法。
技术介绍
文本口令因易于使用一直以来是保护系统安全的重要手段。现在有数以亿计的互联网用户，每个用户都有几十个口令。每个口令都可以获取敏感权限来访问重要的文件或价值数百万美元的账户。因此，自20世纪60年代提出以来，用户口令安全的研究一直是安全领域的热点问题。2006年，NIST（NationalInstituteofStandardsandTechnology）建议用户使用更长、包含多种的字符种类的口令。2017年，NIST进一步指出，用户口令需要足够长（16及以上字符）。这些建议旨在扩大口令搜索空间，来抵御口令猜测攻击。从口令猜测的角度来看，唯一口令(singltons)，即只出现一次的口令，是安全且难以猜测的。但是，用户口令通常存在重用现象，而且数据驱动的口令猜测方法，如概率上下文无关文法(ProbabilisticContext-freeGrammars，简称PCFG)方法，马尔可夫（Markov）方法，长短期记忆神经网络（LSTM）方法，在根据训练数据对用户口令进行建模后，能够生成训练数据以外的口令，并基于口令重用减少搜索空间。但是现有的数据驱动的方法对用户口令的建模存在不足。现有基于分段的口令建模方法会破解口令中网络语、键盘模式的语义，错误地识别口令中的基本词、不连续段。除此以外，当一条用户口令有多种口令结构时，现有方法在评估口令强度时存在性能差、不准确的问题，这些问题现...

【技术保护点】
1.一种基于综合分段的口令建模与强度评估方法，其特征在于，包括细化口令中的段的具体类别，依据对数据集中段的识别结果，采用穷举算法选取单条用户口令所符合的所有口令结构并赋予概率值，所有概率值中的最大值越高，表明用户口令的强度越低；其中，用户口令中段的类别包含如下5种：/n（1）键盘模式，即在键盘设备上按键相邻的字符串、组成平行线、垂直线的字符串；/n（2）网络语，即形似字符替换与音似字符替换，使用两类或以上字符，长度至少为4；/n（3）简写，即由多类字符组成的缩写或常用表示，长度至多为4；/n（4）基本词，即由连续同类字符组成的字符串；/n（5）混合词，即从口令的最大概率的拓扑排序序列中提取出的基本词，亦称混合词；/n其中键盘模式、网络语、简写、基本词通过识别连续段获取，混合词通过识别不连续段获取；/n口令建模与强度评估方法的具体步骤如下：/n步骤一、识别用户口令中的连续段/n对用户口令集中的每一条口令，将该口令拆分成多个子字符串，每个子字符串作为该口令的一段，都是不可再次拆分的；/n其中，用户口令输入格式如下：/n（1）每一行表示一条用户口令；/n（2）对于每一条用户口令，只包含大小写...

【技术特征摘要】
1.一种基于综合分段的口令建模与强度评估方法，其特征在于，包括细化口令中的段的具体类别，依据对数据集中段的识别结果，采用穷举算法选取单条用户口令所符合的所有口令结构并赋予概率值，所有概率值中的最大值越高，表明用户口令的强度越低；其中，用户口令中段的类别包含如下5种：
（1）键盘模式，即在键盘设备上按键相邻的字符串、组成平行线、垂直线的字符串；
（2）网络语，即形似字符替换与音似字符替换，使用两类或以上字符，长度至少为4；
（3）简写，即由多类字符组成的缩写或常用表示，长度至多为4；
（4）基本词，即由连续同类字符组成的字符串；
（5）混合词，即从口令的最大概率的拓扑排序序列中提取出的基本词，亦称混合词；
其中键盘模式、网络语、简写、基本词通过识别连续段获取，混合词通过识别不连续段获取；
口令建模与强度评估方法的具体步骤如下：
步骤一、识别用户口令中的连续段
对用户口令集中的每一条口令，将该口令拆分成多个子字符串，每个子字符串作为该口令的一段，都是不可再次拆分的；
其中，用户口令输入格式如下：
（1）每一行表示一条用户口令；
（2）对于每一条用户口令，只包含大小写字母、数字、特殊符号，可打印ASCII字符和空白字符除外；
步骤二、识别用户口令中的不连续段
将一条只包含基本词的用户口令看作有向无环图，根据数据集中用户口令结构，穷举该图的拓扑排序序列，并为各序列赋予概率值，数据集口令结构中不存在的拓扑排序序列设置其概率为0；选取所有序列中概率最大的一种，根据最大概率拓扑排序序列识别基本词，识别出的基本词即是混合词；
步骤三、评估用户口令强度
对于单条用户口令，根据步骤二得到的口令结构分布与段实例分布，可以得到一种或多种口令结构；使用字典树用于数据集口令结构的存储与查询，穷举该用户口令的口令结构并计算相应的概率值，选择最大概率值用于口令强度评估。

2.根据权利要求1所述的基于综合分段的口令建模与强度评估方法，其特征在于，在步骤一之前，通过如下假设来识别用户口令中段：
（1）在一个数据集中，存在用户口令，这些口令只包含一个键盘模式，或者只包含一个网络语；
（2）用户口令中段的优先级为键盘模式、网络语、简写、基本词、混合词；
（3）如果口令中的子字符串存在多种基本词的组合形式，则根据基本词的概率乘积即长度为L的基本词s在所有长度为L的基本词中的占比，与基本词的数量之比，选择最大值对应的组合形式；
（4）统计口令数据集中自然语言常用的包含多种字符的简写，简写包含11个，分别为“:p”，“*0*”，“#1”，“No.1”，“No.”，“i<3”，“<3”，“Mr.”，“Ms.”，“Mz.”，“St.”，“Dr.”。

3.根据权利要求2所述的基于综合分段的口令建模与强度评估方法，其特征在于，对于用户口令的建模与强度评估，作如下设定：
（1）用户口令的建模与强度评估与口令复用有直接关系，口令复用现象越普遍，用户口令建模越准确、口令...

【专利技术属性】
技术研发人员：韩伟力，王传旺，徐铭，张俊杰，
申请(专利权)人：复旦大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人