数据集的乱序处理方法和装置制造方法及图纸

技术编号：14746752 阅读：65 留言：0更新日期：2017-03-01 23:16

本申请提供一种数据集的乱序处理方法，包括：在一定的取值范围内为初始数据集中的每条记录生成一个随机数；将每条记录根据其随机数划分到子数据集中；每个子数据集对应于不同的数值区间，所有子数据集对应的数值区间之和为随机数的取值范围；在每个子数据集中按照随机数对所有记录进行排序，根据对应的数值区间的顺序将子数据集合成为乱序数据集。通过本申请的技术方案，利用有限的硬件资源即可高效的实现大数据集的全局乱序，达到更好的乱序效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理
，尤其涉及一种数据集的乱序处理方法和装置。
技术介绍
在自动题库、对称式密码设计、网络信息安全模拟检测等系统中，都需要对大型数据集进行乱序处理。乱序处理是对数据集中的记录进行重新排列，并且使得重新排列后的顺序与原先的顺序尽可能不相关联。在对数据集进行重新排列时，需要将涉及到记录读入内存后再按照预定的算法确定其新的顺序。由于任何计算设备的硬件资源都有存在限制，当数据集的规模增大到一定程度时，对整个数据集重新排序所需要的时间往往无法满足实际应用的需求。现有技术中，将大规模的数据集拆分成若干个小文件，每个文件中包括部分记录，针对每个文件中的记录采用乱序算法重新排列顺序。这样，实际上只实现了数据集的局部乱序而不是全局乱序，乱序后的数据集仍旧有特征可循。例如，一个包括100万条顺序排列的密码的数据集，每个文件中包括100个连续的密码，乱序后由于系统在一段时间内应用的都是同一个文件中的密码，则在这段时间内可以在100个值而不是100万个值中猜测可能出现的密码，也就是说，局部乱序极大的降低了系统的安全性。
技术实现思路
有鉴于此，本申请提供一种数据集的乱序处理方法，包括：在一定的取值范围内为初始数据集中的每条记录生成一个随机数；将每条记录根据其随机数划分到子数据集中；每个子数据集对应于不同的数值区间，所有子数据集对应的数值区间之和为随机数的取值范围；在每个子数据集中按照随机数对所有记录进行排序，根据对应的数值区间的顺序将子数据集合成为乱序数据集。本申请还提供了一种数据集的乱序处理装置，包括：随机数生成单元，用于在一定的取值范围内为初始数据集中的每...
数据集的乱序处理方法和装置

【技术保护点】
一种数据集的乱序处理方法，其特征在于，包括：在一定的取值范围内为初始数据集中的每条记录生成一个随机数；将每条记录根据其随机数划分到子数据集中；每个子数据集对应于不同的数值区间，所有子数据集对应的数值区间之和为随机数的取值范围；在每个子数据集中按照随机数对所有记录进行排序，根据对应的数值区间的顺序将子数据集合成为乱序数据集。

【技术特征摘要】
1.一种数据集的乱序处理方法，其特征在于，包括：在一定的取值范围内为初始数据集中的每条记录生成一个随机数；将每条记录根据其随机数划分到子数据集中；每个子数据集对应于不同的数值区间，所有子数据集对应的数值区间之和为随机数的取值范围；在每个子数据集中按照随机数对所有记录进行排序，根据对应的数值区间的顺序将子数据集合成为乱序数据集。2.根据权利要求1所述的方法，其特征在于，所述将每条记录根据其随机数划分到子数据集中，包括：将初始数据集置为源数据集；确定本批次的随机数处理值域；读入源数据集中的一条记录，如果该记录的随机数在本批次的处理值域内，则根据该记录的随机数将该记录及其随机数写入子数据集中；否则将该记录及其随机数写入未处理数据集中；重复本步骤直到源数据集的每条记录处理完毕；如果未处理数据集不为空，将未处理数据集置为源数据集后重复上述两个步骤进行下一批次的处理，直到未处理数据集为空。3.根据权利要求1所述的方法，其特征在于，所述在每个子数据集中按照随机数对所有记录进行排序，根据对应的数值区间的顺序将子数据集合成为乱序数据集，包括：按照对应的数值区间的顺序依次将一个子数据集作为当前子数据集；对当前子数据集中的所有记录按照其随机数进行排序，按照排序后的顺序将所有记录增加到乱序数据集中；重复上述两个步骤直到所有子数据集处理完毕。4.根据权利要求1所述的方法，其特征在于，所述在每个子数据集中按照随机数对所有记录进行排序，根据对应的数值区间的顺序将子数据集合成
\t为乱序数据集，包括：对每个子数据集中的所有记录按照其随机数进行排序，生成排序后的子数据集；按照对应的数值区间的顺序，将所有排序后的子数据集中的记录汇总到乱序数据集中。5.根据权利要求1所述的方法，其特征在于，所述子数据集包括文件名为从0到K的(K+1)个子文件，K为自然数；所述将每条记录根据其随机数划分到子数据集中，包括：将记录写入到以其随机数除以N所得的整数商为文件名的子文件中；N为预设的自然数，且N乘以(K+1)不小于随机数的取值范围。6.根据权利要求1所述的方法，其特征在于，所述记录包括口令或密码。7....

【专利技术属性】
技术研发人员：唐志慧，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人