基于Hadoop分布式文件系统的表数据的有序管理方法以及系统技术方案

技术编号:9254287 阅读:172 留言:0更新日期:2013-10-16 20:51
提供一种基于Hadoop分布式文件系统(HDFS)的表数据的有序管理方法、读取表数据的方法和系统。一种基于HDFS的表数据的有序管理方法包括:接收用户输入的待操作的表的名称和包括多个操作记录的批量数据,基于Hadoop将接收的批量数据进行排序,对经排序的批量数据生成索引数据,在HDFS的指定目录下以文件形式存储经排序的批量数据和生成的索引数据,并且将所述表的名称、存储有所述批量数据的文件的文件名、存储有所述索引数据的文件的文件名以及所述指定目录的路径数据发送给主服务器。

【技术实现步骤摘要】

【技术保护点】
一种基于Hadoop分布式文件系统(HDFS)的表数据的有序管理方法,包括:接收待操作的表的名称和包括多个操作记录的批量数据,所述操作记录包括对表记录的操作的信息以及包括键值的操作数据;基于Hadoop,根据操作记录中的键值对所述批量数据进行抽样排序,并且生成分区标尺;基于Hadoop,根据操作记录中的键值和生成的分区标尺,对所述批量数据进行排序;基于Hadoop,对经排序的所述批量数据生成索引数据,每条索引包括操作记录的键值、存储有所述批量数据的文件名以及所述操作记录的偏移值;在HDFS系统的指定目录下以文件形式存储经排序的批量数据和生成的索引数据;将所述表的名称、存储有所述批量数据的文件的...

【技术特征摘要】

【专利技术属性】
技术研发人员:张众谭待
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1