一种大数据量随机比特序列重码统计和定位的方法和系统技术方案

技术编号:39865010 阅读:8 留言:0更新日期:2023-12-30 12:56
一种大数据量随机比特序列重码统计和定位的方法和系统,方法包括待测随机比特序列获取;测试系统初始化;样本提取和分治存储;样本存储集合内重码查找;重码精确定位和长度拓展;大数据量随机比特序列重码统计和定位系统包括数据输入模块

【技术实现步骤摘要】
一种大数据量随机比特序列重码统计和定位的方法和系统


[0001]本专利技术涉及大数据
,特别涉及一种大数据量随机比特序列重码统计和定位的方法和系统


技术介绍

[0002]随着量子信息技术的不断创新和发展,以及相关行业商业化程度不断提高

使用量子随机过程作为熵源的随机数发生器在随机序列输出速率和质量上都有明显的进步

在输出速率方面,当前一些国产厂商已经能够实现
600Mbps
网口输出速率,能够支持相当多的应用环境

而对于随机数序列质量,通常要求要通过
《GM/T 0005

2021 随机数检测规范

中定义的检测项

随机比特序列中存在的重码序列的统计个数在一定程度上能够描述原始随机数序列的质量

对于大数据量的原始随机比特序列,如
10GB
,通常规定要统计的重码的长度范围在
64
比特到
80
比特之间

仅看
10GB
随机比特序列内部包含的
64
比特重码的情况,其样本量大小为
85,899,345,857。
这种数据量当前大多数计算机无法直接进行分析和处理

在大数据量查重方面,通常采用
Bitmap
来映射样本集合,然后根据映射过程中的出现的重复映射结果统计重码结果

但此方法无法处理本问题,因为
64
比特样本的范围在
0~2^64
之间,使用
Bitmap
映射样本空间,则需要
2147483648GB
的空间,显然不可能实现

基于
Bitmap

Bloom Filter
算法,使用多次
hash
减少映射空间,但是这种方式存在数据误差,导致无法得到准确结果,这是不可接受的


技术实现思路

[0003]本专利技术目的在于提供一种大数据量随机比特序列重码统计和定位的方法和系统,以实现大数据量中高效精准的重码查找统计和定位功能

[0004]本专利技术的技术方案是这样实现的:一种大数据量随机比特序列重码统计和定位的方法,包括以下步骤:待测随机比特序列获取,获取待检测的随机比特序列;测试系统初始化,确定测试规模,设置处理参数,获取并构建随机比特序列的初始样本,调整初始样本字节序列;样本提取和分治存储,提取随机比特序列中包含的所有样本,并根据预设分治存储条件,将样本存储到不同的样本存储集合;样本存储集合内重码查找,获取样本存储集合内的所有样本并进行重码检测,将重码样本输出到重码对集合;重码精确定位和长度拓展,遍历重码对集合,计算重码元素在随机数序列中的精准位置,获取重码完整长度,并根据位置信息剔除重复统计的重码;完成大数据量随机数序列重码统计和定位

[0005]优选地,测试系统初始化过程中,所述初始样本构建为一个样本数据结构,包含样本序列和样本位置信息,样本序列由
64
比特的随机比特子序列填充

[0006]优选地,样本序列根据主机字节序列调整为合适的存储顺序,样本位置信息由扇区号和段号组成,扇区号和段号的划分根据实际检测的随机比特序列数据量决定

[0007]优选地,样本提取和分治存储过程中,提取随机比特序列中的样本通过基础位操作结合当前处理位置比特信息对前一样本进行更新,并调整样本位置信息,所述预设分治存储条件,根据随机比特序列进行设置,预设条件让提取的样本均匀分布到规定的样本存储集合中,且每个样本存储集合均可直接读入内存处理

[0008]优选地,样本存储集合内重码查找过程中,重码查找方法根据快速排序方法,结合排序过程中的比较操作筛选出重码元素,构建包括两个重码元素比特序列和位置信息的重码对,并将其输出到预设的重码对集合中

[0009]优选地,重码精确定位和长度拓展过程中,所述计算重码元素在随机比特序列中的精准位置,为基于数据提取过程中所构建的样本位置信息,将匹配序列直接定位到随机比特序列对应的段区间内

[0010]本专利技术还提供了一种大数据量随机比特序列重码统计和定位的系统,所述系统包括:数据输入模块,用于从量子随机数发生器或系统获取随机比特序列,待后续进行检测;测试系统初始化模块,用于根据系统入参和系统预设确定单个样本结构大小,样本存储集合总数以及初始样本等运行参数;样本提取和分治存储模块,用于从随机比特序列中提取所有样本并根据分治函数均匀存储到样本存储集合;样本存储集合查重模块,用于在所属样本存储集合中,利用快速排序过程,记录对应样本存储集合中所含有的重码元素,并构建重码对;重码精确定位和长度拓展模块,用于对找出的重码进行精确定位,并筛选排除掉被较长重码包含的重码,构建重码结果链表

[0011]与现有技术相比,本专利技术有以下有益效果:本专利技术提出的一种大数据量随机比特序列重码统计和定位的方法和系统,大数据量随机比特序列样本提取和分治存储方法:通过对初始样本的顺序调整,在只使用位操作的基础上完成样本的提取

同时将大数据量样本根据分治函数(取余)均匀映射到不同样本存储集合,既保证重码一定被引导在同一样本存储集合,还保证单个样本存储集合在通用生成环境下的可操作性

设计的样本结构一定程度上减少了样本存储空间的占用,降低了重码定位的运算消耗,提高了重码统计和定位的时间

空间效率

[0012]多个查重进程并行实时处理机制:样本存储单元的独立性创造了查重过程在高性能系统条件下可并行处理条件,系统中实时运行多个查重过程,每个过程独立地对一个样本存储集合进行查重,有效提高了系统对大数据量样本进行查重的效率;基于快速排序处理过程实现查重的方法和系统:基于快速排序能够实现高效的查重效率,基于快速排序过程中的比较操作实现了精准查重,保证所有重码元素均被检测,提高了查重的效率和质量

附图说明
[0013]图1为本专利技术实施例一提供的重码统计和定位方法的流程示意图;图2为本专利技术实施例二提供的重码统计和定位系统的流程示意图;图3为本专利技术实施例二提供的样本提取和分治存储模块的流程示意图;图4为本专利技术实施例二提供的重码精确定位和长度拓展模块中重码重复情况示意图;图5为本专利技术实施例三提供的重码统计和定位系统的查重进程并行处理框架示意图

具体实施方式
[0014]下面将结合本专利技术实施例中的附图,对本专利技术进行清楚

完整地描述

[0015]实施例一,如图1所示,本专利技术实施例公开了一种大数据量随机比特序列重码统计和定位的方法,所述方法包括以下步骤:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大数据量随机比特序列重码统计和定位的方法,其特征在于,包括以下步骤:待测随机比特序列获取,获取待检测的随机比特序列;测试系统初始化,确定测试规模,设置处理参数,获取并构建随机比特序列的初始样本,调整初始样本字节序列;样本提取和分治存储,提取随机比特序列中包含的所有样本,并根据预设分治存储条件,将样本存储到不同的样本存储集合;样本存储集合内重码查找,获取样本存储集合内的所有样本并进行重码检测,将重码样本输出到重码对集合;重码精确定位和长度拓展,遍历重码对集合,计算重码元素在随机比特序列中的精准位置,获取重码完整长度,并根据位置信息剔除重复统计的重码;完成大数据量随机比特序列重码统计和定位
。2.
如权利要求1所述的大数据量随机比特序列重码统计和定位的方法,其特征在于,测试系统初始化过程中,所述初始样本构建为一个样本数据结构,包含样本序列和样本位置信息,样本序列由
64
比特的随机比特子序列填充
。3.
如权利要求1所述的大数据量随机比特序列重码统计和定位的方法,其特征在于,样本序列根据主机字节序列调整为合适的存储顺序,样本位置信息由扇区号和段号组成,扇区号和段号的划分根据实际检测的随机比特序列数据量决定
。4.
如权利要求1所述的大数据量随机比特序列重码统计和定位的方法,其特征在于,样本提取和分治存储过程中,提取随机比特序列中的样本通过基础位操作结合当前处理位置比特信息对前一样本进行更新,并调整样本位置信息,所述预设分治存储条件,根据随机比特...

【专利技术属性】
技术研发人员:赵嘉程周琛
申请(专利权)人:浙江九州量子信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1