基于TreeMap的二维长度不确定数据的主次关键字自排序算法制造技术

技术编号：12277361 阅读：88 留言：0更新日期：2015-11-05 03:21

本发明专利技术公开一种基于TreeMap的二维长度不确定数据的主次关键字自排序算法，包括：从分隔符集合中选取能区分主关键字和次关键字的分隔符；通过二维长度不确定数据的<主关键字，次关键字>对(主次关键字的数据类型可为整型或字符串类型)及其对应数据分别构建TreeMap的Key和Value；利用分隔符、Key和Value向TreeMap缓冲区中插入二维长度不确定数据。本发明专利技术可应用于MapReduce技术中的Reduce阶段数据关联、数据在线采集/收集、按主关键字分析数据(如汇总和平均值)等，通过将二维长度不确定数据插入到TreeMap缓冲区，达到按主次关键字要求排序的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据处理方法，尤其涉及一种基于TreeMap的二维长度不确定数据的主次关键字自排序算法。
技术介绍
在本专利中，二维长度不确定数据，指维度确定但长度不确定的数据，其维度为二维：采用主关键字和次关键字表示，主次关键字的数据类型可为整型或者字符串；通过〈主关键字，次关键字〉对访问二维长度不确定数据。二维长度不确定数据的排序需求为：先按主关键字排序，当主关键字相同时则按次关键字排序。排序是将一组无序数据（记录）调整为有序（升序或者降序）数据的操作。现有排序方法包括传统排序算法、办公自动化中的电子表格排序、大数据环境下的MapReduce 排序。传统排序算法（插入排序、冒泡排序、选择排序、快速排序、堆排序等）是在给定数据长度下排序。应用传统排序算法的前提条件为：（1)数据长度给定；（2)存储待排序的数据；（3)数据的索引（下标）数据类型为整型；(4)对数据本身排序。二维长度不确定数据的按主次关键字排序，因数据长度不确定性、索引类型不确定（可为字符串类型或者整型）、按主次关键字排序（不是数据本身排序），因此传统排序算法并不适用于二维长度不确定数据的主次关键字排序。办公自动化中的电子表格排序是对选定排序区域排序，可以按主次关键字排序，但选定了待排序数据的区域相当于给定了排序数据的长度，电子表格排序方法也不适用于二维长度不确定数据的主次关键字排序。利用大数据环境下的MapReduce技术排序：将主关键字作为Key，次关键字为 Value;对Value集合按次关键字排序。在Map阶段运行条件是必须确定的数据源...
<a href="http://www.xjishu.com/zhuanli/55/CN105022799.html" title="基于TreeMap的二维长度不确定数据的主次关键字自排序算法原文来自X技术">基于TreeMap的二维长度不确定数据的主次关键字自排序算法</a>

【技术保护点】
基于TreeMap的二维长度不确定数据的主次关键字自排序算法，其特征在于，包括以下步骤：步骤1、按分隔符使用频率升序组织分隔符集合：将二维长度不确定数据中的所有分隔符放在一起，形成分隔符集合；步骤2、确定问题域为二维长度不确定数据的主、次关键字排序和主、次关键字的排序要求；步骤3、确定问题域中的主、次关键字集合，在主、次关键字集合中分别找出最大值及最大值的数据宽度；步骤4、从分隔符集合中选取能正确解析出二维长度不确定数据的主关键字和次关键字的分隔符Separator；步骤5、确定二维长度不确定数据的数据结构，当二维长度不确定数据是简单数据类型，则不需定义二维长度不确定数据的数据结构；当二维长度不确定数据是复杂数据类型否则，根据实际数据类型定义该二维长度不确定数据的数据结构stru2d；步骤6、申请TreeMap缓冲区TreeMapBuffer，采用TreeMapBuffer默认的升序比较器或采用自定义的降序比较器；步骤7、将主关键字转换成字符串PrimaryKey，次关键字转换成字符串SecondaryKey；步骤8、构建二维长度不确定数据的TreeMap的键值对<Key，Val...

【技术特征摘要】

【专利技术属性】
技术研发人员：胡自权，徐勇，龙汉安，尹德辉，夏纪毅，
申请(专利权)人：四川医科大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人