本发明专利技术公开了一种熵源的熵估计方法,属于随机数安全技术领域。获取待检测熵源生成的随机序列;按照设定长度分割所述随机序列,得到多个特征序列,其中所述长度等于相关性长度+1,各所述特征序列前相关性长度个数字作为特征向量,最后一位数字作为与该特征向量对应的标签;将上述多个特征序列按照设定比例划分为训练集和测试集;基于所述训练集进行树训练,得到决策树;将所述测试集输入所述决策树,以获得预测结果,根据所述预测结果得到所述待测熵源的最小熵。本发明专利技术在预测准确的同时,在使用较少资源和时间的情况下完成预测,让随机序列预测更加准确和高效。
【技术实现步骤摘要】
本专利技术属于随机数安全,特别涉及熵源的熵估计方法。
技术介绍
1、随机数广泛用于密码学和信息安全中,例如生成加密密钥、初始化向量以及质询-响应机制中的一次性随机数。在众多使用场景中,本专利技术如今使用的随机数主要由两类随机数生成器(rng)生成:确定性随机数生成器(drng)和真随机数生成器(trng),其中trng又根据熵源分为物理类型和非物理类型。drng通常在生成随机数时速度更快、效率更高,而trng则往往具有更理想的不可预测性。由于二者优缺点各不相同,本专利技术也经常将其组合在一起,利用trng生成一段种子序列,作为drng的输出,这样既一定程度保证了不可预测性,又能快速高效的生成随机数
2、由于本专利技术组合使用两种随机数生成器,因此trng作为种子熵源其不可预测性需要本专利技术做一些保证来确保其安全性达标。随机数的安全性也同时显著影响密码实现的安全性,因此高质量的rng是必不可少的。熵是评估rng质量的关键指标。熵的估计可以基于随机模型或统计方法。基于随机模型的熵估计通过对熵源的随机数生成过程建模来进行,例如常见的ais 31和iso/iec 18031标准。通过详细分析和严格规范其内部结构和机制,从理论上判断生成的随机数是否满足熵值要求,从而确保rng的质量。近期关于rng的文章集中在使用随机模型进行熵估计,优化并改进了trng的质量和结构。然而,基于随机模型的熵估计问题在于对目标rng的先验知识依赖性强,因而效率较低且通用性不足。当然,其严格的分析也确保了熵值的准确,令其不失为一种常见的测试方法。</p>3、基于统计方法的熵估计则通过检查来自未知熵源的输出随机数来获得结果。其原理是识别输出序列中统计性质的缺陷,并将这些缺陷与熵值关联,以建立最小熵值,该值可以看作目标rng质量的下限。最著名的统计熵估计方法是nist sp800-90b标准,其中包含主要基于统计技术的检测方法。这种方法本质上适用于高效、便携地测量不同的rng。虽然其准确率不能和随机模型的测试方法相比,但广泛便携的测试rng,在当前的现实使用情况中,是不可忽略的重要因素。
4、90b的统计方法已有更新和优化。kim等人提出了压缩估计器效率的改进,并设计了在线估计器。woo等人解决了最长重复子序列估计器的过估问题,提出了一个更为稳定的估计器。除了统计熵估计,90b还包括预测模型熵估计。kelsey等人在2015年提出了一种用于预测模型熵估计的通用方法。这种方法补充了统计熵估计,能够为一些复杂熵源正确估计熵值,并被集成到90b标准中。随后,kim等人在2017年提出了一个用于multimcw的高效算法,并在2018年对四个估计器进行了全面优化。然而,他们的优化方法相对简单,未能显著提升效率。由于90b预测估计器的改进困难,近期的研究逐渐转向其他预测模型。kelsey等人也在后续工作中建议使用更复杂的、专门设计的机器模型替代预测模型进行序列预测。除了90b标准,基于其他预测模型的新方法也受到关注,其中神经网络(nn)熵估计是最热门的。该方法使用各种nn来预测随机序列,对于一些复杂熵源表现出优异的效果,甚至是90b预测模型方法难以应对的情况。2018年,yang等人率先提出了基于前馈神经网络(fnn)和递归神经网络(rnn)的预测估计器,这一创新标志着使用nn进行预测估计的开始。随后,lv等人在2020年扩展了这一工作,对不同随机序列进行了详细测试。nn凭借其复杂的模型,表现出强大的学习能力和高预测精度。然而,nn需要多次训练迭代来学习参数,导致训练时间较长。尽管nn在高比特和长序列的预测时间上可以优于90b,但在常用比特宽度和1mb数据上的训练时间仍然较长。此外,这些模型难以有效预测二阶马尔可夫模型,往往表现不如90b,甚至几乎无法做出准确预测。为提高nn的准确性,zhang等人在2020年提出了tpa-lstm模型。该模型结合了lstm(适用于时间序列预测)和来自transformer的注意力机制(tpa),显著提高了预测准确性。他们的论文表明,这种预测白噪声随机性的模型可以作为通用的预测估计器模型进行应用。随后在2023年,zhang等人进一步优化了tpa-lstm模型,通过量化和剪枝大幅缩减了模型的体积。他们还引入了one-hot编码来避免因数据数值大小学习引发的预测不准确性。尽管进行了这些改进,tpa-lstm模型在二阶马尔可夫模型的预测上仍然存在困难,且其执行时间比fnn和rnn更长。然而,由于其极高的预测精度,当前的nn预测模型仍将其视为最准确的预测估计器,但其时间和资源消耗令人担忧。
5、90b对于复杂熵源经常出现无法正确测量的情况,而nn往往需要大量的时间和资源消耗。
技术实现思路
1、熵源的熵估计方法:
2、获取待检测熵源生成的随机序列;
3、按照设定长度分割所述随机序列,得到多个特征序列,其中所述长度等于相关性长度+1,各所述特征序列前相关性长度个数字作为特征向量,最后一位数字作为与该特征向量对应的标签;
4、将上述多个特征序列按照设定比例划分为训练集和测试集;
5、基于所述训练集进行树训练,得到决策树;
6、将所述测试集输入所述决策树,以获得预测结果,根据所述预测结果得到所述待测熵源的最小熵。
7、进一步的,对所述随机序列进行相关性测试,得到所述相关性长度。
8、进一步的,确定所述相关性长度的方法包括:
9、计算连续设定长度数字的出现次数,计算得到各设定长度下数字的连续出现次数上界;
10、在所述随机序列中遍历记录不同设定长度的数字连续出现的次数;
11、在次数大于连续出现次数上界时,选择其中最长长度作为所述相关性长度。
12、进一步的,所述分割的方法包括:
13、以所述相关性长度+1作为窗口n截取所述随机序列,第i个特征序列为{xi,...,xi+n},其中{xi,...,xi+n-1}为特征,xi+n为标签。
14、进一步的,所述树训练为:
15、基于训练集从根节点开始划分树节点,基于分裂准则增益,选择分裂效果最好且增益最高的分裂点作为决策树的节点。
16、进一步的,对特征值全部相同的节点进行均匀性分布测试,以对决策树进行剪枝。
17、进一步的,所述均匀性分布测试采用卡方检验或连续性校正卡方检验。
18、进一步的,所述预测结果包括预测准确率和最长连续预测个数。
19、本专利技术的有益效果如下:
20、本专利技术考虑了到随机序列预测需要对数字大小不敏感特性,使用新型预测模型决策树解决90b针对复杂熵源预测准确率不够、以及nn消耗时间和资源过久的问题,使用决策树作为熵估计方法,可以让本专利技术在预测准确的同时,在使用较少资源和时间的情况下完成预测,让随机序列预测更加准确和高效。本专利技术中相关性长度测试和剪枝方法保证了决策树的准确性和效率。
本文档来自技高网...
【技术保护点】
1.熵源的熵估计方法:
2.根据权利要求1所述的方法,其特征在于,对所述随机序列进行相关性测试,得到所述相关性长度。
3.根据权利要求2所述的方法,其特征在于,确定所述相关性长度的方法包括:
4.根据权利要求1所述的方法,其特征在于,所述分割的方法包括:
5.根据权利要求1所述的方法,其特征在于,所述树训练为:
6.根据权利要求1所述的方法,其特征在于,对特征值全部相同的节点进行均匀性分布测试,以对决策树进行剪枝。
7.根据权利要求6所述的方法,其特征在于,所述均匀性分布测试采用卡方检验或连续性校正卡方检验。
8.根据权利要求1所述的方法,其特征在于,所述预测结果包括预测准确率和最长连续预测个数。
9.一种电子装置,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~8中任一项所述方法的指令。
10.一种存储介质,存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~8中任一项所述的方法。
>...
【技术特征摘要】
1.熵源的熵估计方法:
2.根据权利要求1所述的方法,其特征在于,对所述随机序列进行相关性测试,得到所述相关性长度。
3.根据权利要求2所述的方法,其特征在于,确定所述相关性长度的方法包括:
4.根据权利要求1所述的方法,其特征在于,所述分割的方法包括:
5.根据权利要求1所述的方法,其特征在于,所述树训练为:
6.根据权利要求1所述的方法,其特征在于,对特征值全部相同的节点进行均匀性分布测试,以对决策树进行剪枝。
7...
【专利技术属性】
技术研发人员:马原,孙茂森,陈天宇,吕娜,韩东池,贾世杰,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。