当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于综合分段的用户口令建模与强度评估方法技术

技术编号:28036171 阅读:43 留言:0更新日期:2021-04-09 23:18
本发明专利技术属于数据安全技术领域,具体为一种基于综合分段的用户口令建模与强度评估方法。本发明专利技术包括三个步骤:识别用户口令中的连续段、识别用户口令中的不连续段、评估用户口令强度。本发明专利技术对口令数据集中存在的网络语、键盘模式、简写、基本词识别为口令中的连续段,使用拓扑排序方法来将口令中的混合词识别为不连续段,对待评估用户口令穷举所有口令结构来评估用户口令的强度。本发明专利技术的优点在于:具有良好的普适性,可应用于多个不同地域、不同网站的口令数据集对用户口令进行建模;本方法在段的连续性受到破坏时,如自然语言单词中插入数字以破坏单词连续性,仍然可以识别并抽取为连续的段。

【技术实现步骤摘要】
一种基于综合分段的用户口令建模与强度评估方法
本专利技术属于数据安全
,具体涉及基于综合分段的用户口令建模与强度评估方法。
技术介绍
文本口令因易于使用一直以来是保护系统安全的重要手段。现在有数以亿计的互联网用户,每个用户都有几十个口令。每个口令都可以获取敏感权限来访问重要的文件或价值数百万美元的账户。因此,自20世纪60年代提出以来,用户口令安全的研究一直是安全领域的热点问题。2006年,NIST(NationalInstituteofStandardsandTechnology)建议用户使用更长、包含多种的字符种类的口令。2017年,NIST进一步指出,用户口令需要足够长(16及以上字符)。这些建议旨在扩大口令搜索空间,来抵御口令猜测攻击。从口令猜测的角度来看,唯一口令(singltons),即只出现一次的口令,是安全且难以猜测的。但是,用户口令通常存在重用现象,而且数据驱动的口令猜测方法,如概率上下文无关文法(ProbabilisticContext-freeGrammars,简称PCFG)方法,马尔可夫(Markov)方法,长短期记忆神经网络(LSTM)方法,在根据训练数据对用户口令进行建模后,能够生成训练数据以外的口令,并基于口令重用减少搜索空间。但是现有的数据驱动的方法对用户口令的建模存在不足。现有基于分段的口令建模方法会破解口令中网络语、键盘模式的语义,错误地识别口令中的基本词、不连续段。除此以外,当一条用户口令有多种口令结构时,现有方法在评估口令强度时存在性能差、不准确的问题,这些问题现有方法将常见口令评估为难以猜测的口令,使得评估结果不准确。
技术实现思路
本专利技术的目的在于提出一种快速、高效的可以适用于不同地域、不同语言的用户口令建模与强度评估方法。本专利技术提出的用户口令建模与强度评估方法,细化了口令中的段的具体类别,依据对数据集中段的识别结果,采用简单高效的穷举算法选取单条用户口令所符合的所有口令结构并赋予概率值,所有概率值中的最大值越高,表明用户口令的强度越低。本专利技术提出的用户口令建模与强度评估方法,除了可以直接应用外,其相应的评估方法也可以为其他建模方法(建模方法使单条口令存在多种口令结构)下的口令强度评估方法提供参考,针对不同类别的段以及口令结构,可高效建模用户口令并评估用户口令强度。本专利技术提供的用户口令建模与强度评估方法,是基于综合分段的,具体分为三个步骤。步骤一、识别用户口令中的连续段对用户口令集中的每一条口令,将该口令拆分成多个子字符串,每个子字符串作为该口令的一段,都是不可再次拆分的;其中,用户口令中的段的类别包含如下5种:(1)键盘模式(在键盘设备上按键相邻的字符串、组成平行线、垂直线的字符串,如“1q2w3e4r”,长度至少为4,使用两类或以上字符);(2)网络语(形似字符替换与音似字符替换,如“too”可以替换为“2”,使用两类或以上字符,长度至少为4);(3)简写(由多类字符组成的缩写或常用表示,如“Mr.”,长度至多为4);(4)基本词(由连续同类字符组成的字符串);(5)混合词(从口令的最大概率的拓扑排序序列中提取出的基本词称为混合词)。其中键盘模式、网络语、简写、基本词通过识别连续段获取,混合词通过识别不连续段获取。对用户口令数据集中使用的网络语、键盘模式等,总结其特征与模板,根据模板对这些段进行模式匹配,统计口令数据集中的段;对单条用户口令,根据口令集中的段进行最长匹配与深度优先搜索,识别单条用户口令中的段。其中,用户口令输入格式如下:(1)每一行表示一条用户口令;(2)对于每一条用户口令,只包含大小写字母、数字、特殊符号(可打印ASCII字符,空白字符除外)。步骤二、识别用户口令中的不连续段将一条只包含基本词的用户口令看作有向无环图,根据数据集中用户口令结构,穷举该图的拓扑排序序列,并为各序列赋予概率值,数据集口令结构中不存在的拓扑排序序列设置其概率为0;选取所有序列中概率最大的一种(最大概率拓扑排序序列),根据最大概率拓扑排序序列识别基本词,识别出的基本词即是混合词。步骤三、评估用户口令强度对于单条用户口令,根据步骤二得到的口令结构分布与段实例分布,可以得到一种或多种口令结构;使用字典树用于数据集口令结构的存储与查询,穷举该用户口令的口令结构并计算相应的概率值,选择最大概率值用于口令强度评估。本专利技术中,在实现步骤一之前,需要做出如下假设来识别用户口令中段:(1)在一个数据集中,存在用户口令,这些口令只包含一个键盘模式,或者只包含一个网络语;(2)用户口令中段的优先级为键盘模式、网络语、简写、基本词、混合词;(3)如果口令中的子字符串存在多种基本词的组合形式,则根据基本词的概率乘积(长度为L的基本词s在所有长度为L的基本词中的占比)与基本词的数量之比,选择最大值对应的组合形式;(4)统计口令数据集中自然语言常用的包含多种字符的简写,简写包含11个,分别为“:p”,“*0*”,“#1”,“No.1”,“No.”,“i<3”,“<3”,“Mr.”,“Ms.”,“Mz.”,“St.”,“Dr.”。本专利技术步骤一中,所述用户口令中连续段的识别,具体过程如下:(1)对用户口令数据集中的每一条口令,按最长匹配识别并标记口令中的键盘模式,键盘模式分为连续(相邻字符在键盘上的按键相邻)、平行(字符映射到键盘上的按键后呈平行线)、垂直(字符映射到键盘上的按键后垂直且连续);(2)统计用户口令数据集中字母字符串的频次;(3)用户口令数据集中每一条长度大于4的口令通过去网络语化(假设口令为网络语,将其复原为字母字符串);若复原得到的字母字符串的频次至少为5,则识别该口令为网络语;使用字典树存储所有网络语;对标记键盘模式后的每一条口令,使用字典树和最长匹配识别并标记网络语;(4)对标记键盘模式和网络语后的每一条口令,使用最长匹配识别并标记简写;简写是预定义的,包含如下内容:“:p”,“*0*”,“#1”,“No.1”,“No.”,“i<3”,“<3”,“Mr.”,“Ms.”,“Mz.”,“St.”,“Dr.”;(5)统计字母字符串、数字字符串、特殊符号字符串的概率分布;对每一条口令中未标记的字符串,将该字符串拆分成一个或多个子字符串(基本词),使得所有基本词的概率乘积与基本词个数的比值最大;(6)根据口令结构(段的组合方式)的频次分布计算口令结构的概率分布;根据段的长度与类别,统计各长度、类别下段的频次分布并计算其概率分布;使用字典树存储口令结构,字典树的每一个结点代表一个段。本专利技术中,对于用户口令的建模与强度评估,需做出如下假设(即具有如下特点):(1)用户口令的建模与强度评估与口令复用有直接关系,口令复用现象越普遍,用户口令建模越准确、口令强度越低;(2)单条用户口令可能符合多种口令结构,对应本文档来自技高网
...

【技术保护点】
1.一种基于综合分段的口令建模与强度评估方法,其特征在于,包括细化口令中的段的具体类别,依据对数据集中段的识别结果,采用穷举算法选取单条用户口令所符合的所有口令结构并赋予概率值,所有概率值中的最大值越高,表明用户口令的强度越低;其中,用户口令中段的类别包含如下5种:/n(1)键盘模式,即在键盘设备上按键相邻的字符串、组成平行线、垂直线的字符串;/n(2)网络语,即形似字符替换与音似字符替换,使用两类或以上字符,长度至少为4;/n(3)简写,即由多类字符组成的缩写或常用表示,长度至多为4;/n(4)基本词,即由连续同类字符组成的字符串;/n(5)混合词,即从口令的最大概率的拓扑排序序列中提取出的基本词,亦称混合词;/n其中键盘模式、网络语、简写、基本词通过识别连续段获取,混合词通过识别不连续段获取;/n口令建模与强度评估方法的具体步骤如下:/n步骤一、识别用户口令中的连续段/n对用户口令集中的每一条口令,将该口令拆分成多个子字符串,每个子字符串作为该口令的一段,都是不可再次拆分的;/n其中,用户口令输入格式如下:/n(1)每一行表示一条用户口令;/n(2)对于每一条用户口令,只包含大小写字母、数字、特殊符号,可打印ASCII字符和空白字符除外;/n步骤二、识别用户口令中的不连续段/n将一条只包含基本词的用户口令看作有向无环图,根据数据集中用户口令结构,穷举该图的拓扑排序序列,并为各序列赋予概率值,数据集口令结构中不存在的拓扑排序序列设置其概率为0;选取所有序列中概率最大的一种,根据最大概率拓扑排序序列识别基本词,识别出的基本词即是混合词;/n步骤三、评估用户口令强度/n对于单条用户口令,根据步骤二得到的口令结构分布与段实例分布,可以得到一种或多种口令结构;使用字典树用于数据集口令结构的存储与查询,穷举该用户口令的口令结构并计算相应的概率值,选择最大概率值用于口令强度评估。/n...

【技术特征摘要】
1.一种基于综合分段的口令建模与强度评估方法,其特征在于,包括细化口令中的段的具体类别,依据对数据集中段的识别结果,采用穷举算法选取单条用户口令所符合的所有口令结构并赋予概率值,所有概率值中的最大值越高,表明用户口令的强度越低;其中,用户口令中段的类别包含如下5种:
(1)键盘模式,即在键盘设备上按键相邻的字符串、组成平行线、垂直线的字符串;
(2)网络语,即形似字符替换与音似字符替换,使用两类或以上字符,长度至少为4;
(3)简写,即由多类字符组成的缩写或常用表示,长度至多为4;
(4)基本词,即由连续同类字符组成的字符串;
(5)混合词,即从口令的最大概率的拓扑排序序列中提取出的基本词,亦称混合词;
其中键盘模式、网络语、简写、基本词通过识别连续段获取,混合词通过识别不连续段获取;
口令建模与强度评估方法的具体步骤如下:
步骤一、识别用户口令中的连续段
对用户口令集中的每一条口令,将该口令拆分成多个子字符串,每个子字符串作为该口令的一段,都是不可再次拆分的;
其中,用户口令输入格式如下:
(1)每一行表示一条用户口令;
(2)对于每一条用户口令,只包含大小写字母、数字、特殊符号,可打印ASCII字符和空白字符除外;
步骤二、识别用户口令中的不连续段
将一条只包含基本词的用户口令看作有向无环图,根据数据集中用户口令结构,穷举该图的拓扑排序序列,并为各序列赋予概率值,数据集口令结构中不存在的拓扑排序序列设置其概率为0;选取所有序列中概率最大的一种,根据最大概率拓扑排序序列识别基本词,识别出的基本词即是混合词;
步骤三、评估用户口令强度
对于单条用户口令,根据步骤二得到的口令结构分布与段实例分布,可以得到一种或多种口令结构;使用字典树用于数据集口令结构的存储与查询,穷举该用户口令的口令结构并计算相应的概率值,选择最大概率值用于口令强度评估。


2.根据权利要求1所述的基于综合分段的口令建模与强度评估方法,其特征在于,在步骤一之前,通过如下假设来识别用户口令中段:
(1)在一个数据集中,存在用户口令,这些口令只包含一个键盘模式,或者只包含一个网络语;
(2)用户口令中段的优先级为键盘模式、网络语、简写、基本词、混合词;
(3)如果口令中的子字符串存在多种基本词的组合形式,则根据基本词的概率乘积即长度为L的基本词s在所有长度为L的基本词中的占比,与基本词的数量之比,选择最大值对应的组合形式;
(4)统计口令数据集中自然语言常用的包含多种字符的简写,简写包含11个,分别为“:p”,“*0*”,“#1”,“No.1”,“No.”,“i<3”,“<3”,“Mr.”,“Ms.”,“Mz.”,“St.”,“Dr.”。


3.根据权利要求2所述的基于综合分段的口令建模与强度评估方法,其特征在于,对于用户口令的建模与强度评估,作如下设定:
(1)用户口令的建模与强度评估与口令复用有直接关系,口令复用现象越普遍,用户口令建模越准确、口令...

【专利技术属性】
技术研发人员:韩伟力王传旺徐铭张俊杰
申请(专利权)人:复旦大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1