一种基于指针生成网络的定向在线口令猜测方法技术

技术编号:38381446 阅读:16 留言:0更新日期:2023-08-05 17:39
本发明专利技术公开了一种基于指针生成网络的定向在线口令猜测方法,其步骤包括:1)选取一口令数据集,所述口令数据集中包括多个用户的个人信息及对应口令;2)从所述口令数据集中的个人信息中抽取所需的属性信息,并按照预设的各种信息格式分别对所抽取属性进行表示,得到对应用户的个人信息列表;基于用户的所述个人信息列表,采用正向最大匹配方法切分用户口令,得到对应用户的口令片段列表;3)利用步骤2)的处理结果训练指针生成网络;4)对于一目标用户,生成该目标用户的所述个人信息列表并输入到训练后的指针生成网络,生成猜测的口令片段,然后将生成的口令片段组合为多个候选口令;然后选取K个候选口令作为该目标用户的口令。令。令。

【技术实现步骤摘要】
一种基于指针生成网络的定向在线口令猜测方法


[0001]本专利技术属于信息安全
,涉及一种基于指针生成网络的定向在线口令猜测方法。

技术介绍

[0002]根据口令的猜测方式和是否使用用户的个人信息,口令猜测方法可分为漫步离线猜测和定向在线猜测。常用的定向在线口令猜测方法主要包括以下几种:
[0003]1)Personal

PCFG。在原始基于概率上下文无关文法(Probabilistic Context

Free Grammars,PCFG)模型的基础上,引入了生日、姓名、邮箱地址、用户名、手机号、身份证号六类个人信息。该模型采用基于长度匹配个人信息的方法,首先分别将各个人信息匹配口令,记录口令中匹配到的个人信息类型以及子串长度,然后将匹配后的子串标记为个人信息标签。对于口令中未匹配的字符串,采用PCFG中自有的标签标记。在生成阶段,针对不同的目标用户,依次将高概率口令结构中的自有标签、个人信息标签替换为高频字符串和用户个人信息子串,生成候选口令集合。
[0004]2)TarGuess

I。由于基于长度匹配的方法具有一些缺点,比如,高估生日或手机号个人信息的使用、对个人信息的子类型不敏感等。于是,该模型提出了基于类型的个人信息匹配方法。通过预定义基于类型的个人信息标签,采用这些个人信息标签内容匹配口令。标签的下标数字不代表长度,而代表个人信息的子类型,比如姓名全拼、姓名缩写等。通过将基于类型的个人信息匹配方法与PCFG模型相结合,该模型在一定程度上提高了猜测成功率。
[0005]这两种方法都基于PCFG模型,完全基于统计的概率,具有针对不同用户构造口令结构顺序固定的缺点,所以这些方法在定向口令猜测中效果并非是最优的。

技术实现思路

[0006]本专利技术的目的在于针对上述问题,提供一种基于指针生成网络的定向在线口令猜测方法,能够提高口令猜测效果。本专利技术针对在线口令猜测场景,采用了自然语言处理中的指针生成网络进行在线口令猜测,大幅度提升了效果。
[0007]本专利技术采用的技术方案如下:
[0008]一种基于指针生成网络的定向在线口令猜测方法,包括以下步骤:
[0009]第一步,过滤原始数据集中不符合要求的个人信息、口令,对剩余的数据进行预处理;
[0010]1)过滤条件包括:
[0011]1‑
1)个人信息中包含姓名、电子邮件、手机号码、帐户名、身份证号码五种属性;
[0012]1‑
2)口令仅由ASCII码中96个可打印字符组成。
[0013]2)预处理过程包括:
[0014]2‑
1)从个人信息五种属性中,按照预定义的信息格式提取出相应内容;
[0015]2‑
2)针对每个用户,将个人信息格式内容组成字典,按照正向最大匹配方法切分口令,口令中未被匹配的字符串按照单字符处理;
[0016]2‑
3)预处理后,对于每个用户,其个人信息为提取的信息格式列表,其口令为切分后的口令片段列表。
[0017]第二步,基于个人信息与口令片段,训练指针生成网络,学习个人信息如何影响口令构造以及口令常用的结构组成,将训练调优后的指针生成网络模型保存;
[0018]第三步,加载指针生成网络模型,输入目前用户的个人信息格式列表,输出猜测的口令片段,将猜测的口令片段拼接,组成候选猜测口令。
[0019]本专利技术的有益效果是:
[0020]本专利技术通过采用指针生成网络模型,突破了以往定向在线口令猜测模型中PCFG构造口令结构顺序固定的限制,增加了口令结构生成的多样性,提高了定向在线口令猜测的猜测成功率,同时具有自动化程度高、模型存储空间小等优点。本专利技术根据口令的猜测成功率可更好地在线评估口令的安全强度。
附图说明
[0021]图1是本专利技术方法的流程图。
[0022]图2是基于12306数据集与PCFG、Personal

PCFG、TarGuess

I方法的对比结果图。
[0023]图3是基于PII

CSDN数据集与PCFG、Personal

PCFG、TarGuess

I方法的对比结果图。
[0024]图4是基于PII

Dodonew数据集与PCFG、Personal

PCFG、TarGuess

I方法的对比结果图。
[0025]图5是真实测试口令与PG

Pass猜测口令长度分布的对比结果图。
[0026]图6是在不同猜测次数下,PG

Pass猜测口令结构的变化趋势图。
[0027]图7是基于不同数据集,PG

Pass猜测结果的对比分析图。
具体实施方式
[0028]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面通过具体实施案例和附图,对本专利技术做进一步详细说明。
[0029]本专利技术的提出的方法流程图如图1所示,共包含数据预处理、模型训练和口令生成三个步骤。
[0030]第一步,是数据预处理。口令可以看作是一种短文本,但它们与自然语言又有不同之处。与中文文本相比,口令不是由汉字组成,而是由拼音字母或单个字符组成;与英文文本相比,口令中没有空格作为单词之间的分隔符。因此,自然语言处理模型不能直接用于口令文本。
[0031]以真实泄露公开的口令数据集为例,原始数据包含个人信息与口令两部分。其中,个人信息包括五种属性:姓名、电子邮件、手机号码、帐户名、身份证号码。姓名由中文汉字组成,生日隐藏在身份证号码中。在预处理中本专利技术进行如下操作:
[0032]1)从姓名、电子邮件、手机号码、帐户名、身份证号码五种属性中提取姓名(拼音格式)、邮箱前缀、手机号码、账户名、生日、身份证号码个人信息;
[0033]2)按照自定义的信息格式对个人信息进行表示,自定义的信息格式请见表3;
[0034]3)针对每个用户,基于个人信息列表,采用正向最大匹配方法切分用户口令,将口令中未匹配的字符串切分为单个字符,得到用户口令片段列表。
[0035]特殊地,对于训练数据,包含上述三个操作步骤,对于测试数据,包含上述两个操作步骤1)~2)。
[0036]第二步,是模型训练过程。对于定向在线口令猜测,针对各用户的数据构成数据集D,数据集D(上述预处理后的数据集)在训练阶段包含两部分,即个人信息列表和用户口令片段列表,如下所示。比如,U1表示第一个用户的个人信息列表,P1表示第一个用户口令片段列表。同时,U1=[u
11
,...,u
1k
]和P1=[p
11
,...,p
1l
]分别包含多个值,其中u
11
表示第一个用户的第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于指针生成网络的定向在线口令猜测方法,其步骤包括:1)选取一口令数据集,所述口令数据集中包括多个用户的个人信息及对应口令;2)从所述口令数据集中的个人信息中抽取所需的属性信息,并按照预设的各种信息格式分别对所抽取属性进行表示,得到对应用户的个人信息列表;基于用户的所述个人信息列表,采用正向最大匹配方法切分用户口令,得到对应用户的口令片段列表;3)利用步骤2)的处理结果构成一数据集D={[U1,P1],[U2,P2],...,[U
n
,P
n
]};其中,U
n
表示第n个用户的个人信息列表,P
n
表示第n个用户的口令片段列表,U
n
=[u
n1
,...,u
nk
],P
n
=[p
n1
,...,p
nl
],u
nk
表示第n个用户的第k个人信息内容,p
nl
表示第n个用户的第l个口令片段;n为用户总数,k为个人信息总数,l为第n个用户口令数据切分后的口令片段总数;4)利用所述数据集D训练指针生成网...

【专利技术属性】
技术研发人员:李阳李勇陈曦石瑞鑫韩冀中
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1