【技术实现步骤摘要】
一种文件处理方法、装置、设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种文件处理方法、装置、设备及存储介质。
技术介绍
[0002]分布式文件系统(Hadoop Distributed File System,HDFS)凭借高可靠、高效、可伸缩的特点,在大规模计算领域得到广泛的应用。现有技术中,HDFS包括一个主节点和多个从节点,可以将小文件存储在主节点的存储块中。
[0003]然而,HDFS是由多个存储块构成的,每个存储块所能够接收的存储量是远大于小文件的数据量的,基于此,会出现HDFS存储块的存储空间未被占满的情形,导致存储块资源浪费的问题。同时,在对小文件的访问过程中,需要不断的从一个小文件跳转到另外一个小文件,会增加读取时间,导致文件处理的效率降低。
技术实现思路
[0004]本专利技术提供了一种文件处理方法、装置、设备及存储介质,节省了分布式文件系统的资源,提高了数据上传的效率,以保证系统的稳定性。
[0005]第一方面,本专利技术提供了一种文件处理方法,该方 ...
【技术保护点】
【技术特征摘要】
1.一种文件处理方法,其特征在于,包括:读取至少一个目标文件,并将所述至少一个目标文件的关联信息写入目标内存中,其中,所述关联信息包括文件名称、文件属性以及所述目标内容的文件内容;在所述目标内存中存储的关联信息满足预设存储条件时,调取至少一个处理线程将所述至少一个目标文件写入目标分布式系统中;其中,所述预设存储条件与所述目标分布式系统中每个存储块的存储数据量相对应。2.根据权利要求1所述的方法,其特征在于,所述在所述目标内存中存储的关联信息满足预设存储条件时,调取至少一个处理线程将所述至少一个目标文件写入目标分布式系统中,包括:基于所述文件属性确定所述目标内存的存储量达到预设存储数据量阈值和/或所述关联信息在所述目标内存中的存储时长达到预设存储时长阈值,则调取至少一个处理线程将所述至少一个目标文件写入所述目标分布式系统中。3.根据权利要求1所述的方法,其特征在于,还包括:若当前未包括空闲处理线程或所述目标内存已满足预设所述预设存储条件,则在接收到所述至少一个目标文件时,将所述目标文件写入目标缓存中,以所述目标缓存中存储的关联信息满足所述预设存储条件,且存在空闲处理线程时,基于所述空闲处理线程对所述目标缓存中的文件进行处理。4.根据权利要求1所述的方法,其特征在于,还包括:在将至少一个目标文件写入所述目标缓存的过程中,若所述目标内存为空,则根据至少一个待存储目标文件的关联信息以及所述目标缓存中已存储的关联信息,确定所述至少一个待存储目标文件的存储位置。5.根据权利要求4所述的方法,其特征在于,所述根据至少一个待存储目标文件的关联信息以及所述目标缓存中已存储的关联信息,确定所述至少一个待存储目标文件的存储位置,包括:根据所述目标缓存中已存储的关联信息,确定数据存储量;根据所述数据存储...
【专利技术属性】
技术研发人员:任丽超,程强,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。