【技术实现步骤摘要】
数据存储的方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种数据存储的方法、装置、电子设备及存储介质。
技术介绍
[0002]HDFS(Hadoop分布式文件系统)是Hadoop分布式系统架构的核心组件,以多台机器构建集群的方式来提供海量数据的存储能力。HDFS集群采用主从架构,一般由一个NameNode(管理节点)和若干个DataNode(数据节点)组成。管理节点负责维护整个文件系统结构和管理其他数据节点,而数据节点负责真正的数据存储。
[0003]在HDFS分布式文件系统中,对于数据的存储是采用“分而治之”的思想来处理的,以达到多个“聚少成多”的目的,即将各个数据块优先选择空闲率高的数据节点存储,分散到各个数据节点上。由于数据块分散在各个不同的节点上,所以在数据库查询连接的过程中,不同节点的关联数据需要通过网络传输到同一数据节点,以完成数据库查询连接的操作。因此需要进行大量的网络传输,消耗了较多的时间和网络资源,使得整个数据库查询连接的查询效率大大降低。
技术实现思路
r/>[0004]有本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据存储的方法,其特征在于,应用于分布式文件系统,其中,所述数据存储的方法,包括:获取待存储的数据文件的文件编号和连接键;其中,所述文件编号为预先根据预设的编号规则对数据文件进行编号得到,相互关联的数据文件具有相同的文件编号;所述连接键为用于对数据文件进行查询连接的字段;针对每一个所述数据文件,将所述数据文件中的数据按照各个所述连接键进行分类,得到各个所述连接键对应的数据;针对每一个所述数据文件,将所述数据文件中同一连接键对应的数据存储到同一个数据块中,得到所述数据文件的各个数据块;其中,每一个所述数据块通过所述连接键以及所述文件编号进行标识;基于各个所述数据块的所述文件编号和所述连接键,将各个所述数据块分配到数据节点上进行存储。2.根据权利要求1所述的方法,其特征在于,所述将所述数据文件中的数据按照各个所述连接键进行分类,得到各个所述连接键对应的数据,包括:将所述数据文件按照所述连接键进行分区操作,得到各个所述连接键对应的数据。3.根据权利要求1所述的方法,其特征在于,所述基于各个所述数据块的所述文件编号和所述连接键,将各个所述数据块分配到数据节点上进行存储,包括:将各个所述数据块按照所述文件编号和所述连接键进行分类处理,筛选出所述文件编号和所述连接键均相同的数据块;将所述文件编号和所述连接键均相同的数据块,分配到相同的数据节点上进行存储。4.根据权利要求1所述的方法,其特征在于,所述基于各个所述数据块的所述文件编号和所述连接键,将各个所述数据块分配到数据节点上进行存储之后,还包括:生成数据存储的存储日志。5.一种数据存储的装置,其特征在于,应用于分布式文件系统,其中,所述数据存储的装置,包括:获取单元,用于获取待存储的数据文件...
【专利技术属性】
技术研发人员:阮景,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。