一种数据处理方法、装置及计算设备制造方法及图纸

技术编号:25708441 阅读:37 留言:0更新日期:2020-09-23 02:55
本发明专利技术实施例公开了一种数据处理方法,应用于分布式文件系统,该方法包括:为分布式文件系统的主节点所存储的第一目录结构的第一目录节点生成标识信息,该标识信息用于在第一目录结构中唯一标识第一目录节点对应的目录或者文件;生成指示对第一目录结构进行转换的第一操作日志,分布式文件系统的备用节点基于第一操作日志,为备用节点所存储的第二目录结构的第二目录节点生成标识信息,第二目录结构为第一目录结构的副本,第二目录节点的标识信息与对应第一目录节点的标识信息相同。本发明专利技术实施例还公开了相应的数据处理装置、系统和计算设备。

【技术实现步骤摘要】
一种数据处理方法、装置及计算设备
本专利技术涉及分布式存储
,特别涉及一种数据处理方法、装置及计算设备。
技术介绍
随着互联网应用的不断增长,通过互联网访问的数据量也在不断增长。随着被访问数据量的增长,数据存储系统已被修改以容纳更大的数据集并提供快速稳定的数据访问。用于容纳更大的数据集并提供快速稳定的数据访问的一种类型的数据存储系统是分布式文件系统。分布式文件系统通常包括数据节点和元数据节点。数据节点负责存储数据,元数据节点负责处理与元数据相关的请求和权限管理。其中,元数据又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,例如目录结构等。在现有的分布式文件系统中,其目录结构中的文件和目录缺少唯一标识,导致用户无法判断具有同一名称的文件是否内容一致。例如,如果某文件被删除之后再次创建了与该文件同名的文件,用户无法获知所创建的文件是否与以前的文件内容一致。因此,需要提供一种数据处理方案,使得可以将现有的目录结构转换为其目录节点具有唯一标识的目录结构。
技术实现思路
为此,本专利技术实施例提供了一种数据处理方法、装置及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术实施例的一个方面,提供了一种数据处理方法,应用于分布式文件系统,该方法包括:为分布式文件系统的主节点所存储的第一目录结构的第一目录节点生成标识信息,该标识信息用于在第一目录结构中唯一标识第一目录节点对应的目录或者文件;生成指示对第一目录结构进行转换的第一操作日志,分布式文件系统的备用节点基于第一操作日志,为备用节点所存储的第二目录结构的第二目录节点生成标识信息第二目录结构为第一目录结构的副本,第二目录节点的标识信息与对应第一目录节点的标识信息相同。可选地,在根据本专利技术实施例的数据处理方法中,为目录结构的目录节点生成标识信息,包括:采用单个线程为目录结构的目录节点生成标识信息;或者采用多个线程并行地为目录结构的目录节点生成标识信息。可选地,在根据本专利技术实施例的数据处理方法中,采用多个线程并行地为目录结构的目录节点生成标识信息,包括:采用主线程遍历目录结构;对于遍历到的根目录节点下的目录节点,为目录节点生成标识信息;如果该目录节点对应于目录,则判断位于对应目录下的文件数量和/或子目录数量是否超过预定阈值;如果超过,采用新的线程遍历该目录节点下的目录节点,并在新的线程中重复上述为目录节点生成标识信息和判断位于对应目录下的文件数量和/或子目录数量是否超过预定数值的步骤,该新的线程以该目录节点的标识信息为起始标识信息。可选地,在根据本专利技术实施例的数据处理方法中,采用多个线程并行地为目录结构的目录节点生成标识信息,还包括:如果不超过,继续采用当前线程遍历目录节点下的目录节点,并重复上述为目录节点生成标识信息和判断位于对应目录下的文件数量和/或子目录数量是否超过预定数值的步骤。可选地,在根据本专利技术实施例的数据处理方法中,对于各线程,为该线程遍历到的目录节点生成标识信息,包括:至少基于该线程所遍历的上一个目录节点的标识信息,生成该线程遍历到的目录节点的标识信息。可选地,在根据本专利技术实施例的数据处理方法中,至少基于线程所遍历的上一个目录节点的标识信息,生成线程遍历到的目录节点的标识信息,包括:如果未采用新的线程来遍历上一个目录节点下的目录节点,则根据上一个目录节点的标识信息生成线程遍历到的目录节点的标识信息;如果采用新的线程来遍历上一个目录节点下的目录节点,则根据上一个目录节点的标识信息、以及位于上一个目录节点对应目录下的文件数量和/或子目录数量,生成线程遍历到的目录节点的标识信息。可选地,在根据本专利技术实施例的数据处理方法中,对于各线程,为该线程遍历到的目录节点生成标识信息,包括:如果目录节点为线程所遍历的首个目录节点,则根据线程的起始标识信息来生成目录节点的标识信息。可选地,在根据本专利技术实施例的数据处理方法中,目录结构的目录节点存储于内存池所分配的内存中,在为目录节点生成标识信息之后,方法还包括:向新的内存池申请内存来存储具有标识信息的目录节点,目录节点在新的内存池中的地址标识与目录节点在先前的内存池中的地址标识相同,地址标识用于指示目录节点在内存池中的存储地址;释放先前的内存池所分配的用于存储目录节点的内存。可选地,在根据本专利技术实施例的数据处理方法中,在为目录结构的目录节点生成标识信息之前,方法还包括:对目录结构进行写操作的锁定,以拒绝除生成标识信息的线程之外的任何线程对目录结构的写操作;以及在为目录结构的目录节点生成标识信息之后,方法还包括:解除对目录结构进行写操作的锁定。可选地,在根据本专利技术实施例的数据处理方法中,在为第一目录节点生成标识信息的步骤之前,方法还包括:接收来自客户端的目录结构转换请求,目录结构转换请求请求转换第一目录结构,使得第一目录节点具有标识信息;以及在生成第一操作日志之后,方法还包括:接收备用节点发送的、指示第二目录结构转换完成的消息;在发送消息的备用节点的数量超过预定数量的情况下,向客户端返回第一目录结构转换完成的消息。可选地,在根据本专利技术实施例的数据处理方法中,方法还包括:接收请求在第一目录结构中创建新的文件或者目录的目录操作请求;响应于目录操作请求,在第一目录结构中创建相应目录节点,并为相应目录节点生成标识信息;生成指示创建相应目录节点,并包括相应标注信息的第二操作日志,以便备用节点基于第二操作日志,在第二目录结构中创建相应目录节点,并为相应目录节点生成第二操作日志所记录的相应标注信息。根据本专利技术实施例的另一方面,提供了一种数据处理装置,驻留在分布式文件系统中,装置包括:标识生成模块,适于为分布式文件系统的主节点所存储的第一目录结构的第一目录节点生成标识信息,该标识信息用于在第一目录结构中唯一标识第一目录节点对应的目录或者文件;日志记录模块,适于生成指示对第一目录结构进行转换的第一操作日志,分布式文件系统的备用节点基于第一操作日志,为备用节点所存储的第二目录结构的第二目录节点生成标识信息,第二目录结构为所述第一目录结构的副本,第二目录节点的标识信息与对应第一目录节点的标识信息相同。根据本专利技术实施例的另一方面,提供了一种计算设备,包括:存储器,适于存储程序;耦合至存储器的处理器,适于运行程序,以执行根据本专利技术实施例的数据处理方法。根据本专利技术实施例的还有一个方面,提供了一种存储一个或多个程序的计算机可读存储介质,该一个或多个程序包括指令,指令当计算设备执行时,使得计算设备执行根据本专利技术实施例的数据处理方法。本专利技术实施例的数据处理方案可以将目录结构中的目录节点转换为具有标识信息的目录节点,从而实现了唯一标识文件或者目录的功能,提高了用户体验。其中,通过采用多个线程来并行地为目录节点生成标识信息,可以高效地对目录结构进行转换,节省时间。进一步地,备用节点与主节点为相应目录节点所生成的标识信息相同,保持了数据一致性。附图说明为了实现上述以及相关目的,本文结合下面本文档来自技高网...

【技术保护点】
1.一种数据处理方法,应用于分布式文件系统,所述方法包括:/n为所述分布式文件系统的主节点所存储的第一目录结构的第一目录节点生成标识信息,所述标识信息用于在所述第一目录结构中唯一标识所述第一目录节点对应的目录或者文件;/n生成指示对所述第一目录结构进行转换的第一操作日志,所述分布式文件系统的备用节点基于所述第一操作日志,为所述备用节点所存储的第二目录结构的第二目录节点生成标识信息,所述第二目录结构为所述第一目录结构的副本,所述第二目录节点的标识信息与对应第一目录节点的标识信息相同。/n

【技术特征摘要】
1.一种数据处理方法,应用于分布式文件系统,所述方法包括:
为所述分布式文件系统的主节点所存储的第一目录结构的第一目录节点生成标识信息,所述标识信息用于在所述第一目录结构中唯一标识所述第一目录节点对应的目录或者文件;
生成指示对所述第一目录结构进行转换的第一操作日志,所述分布式文件系统的备用节点基于所述第一操作日志,为所述备用节点所存储的第二目录结构的第二目录节点生成标识信息,所述第二目录结构为所述第一目录结构的副本,所述第二目录节点的标识信息与对应第一目录节点的标识信息相同。


2.如权利要求1所述的方法,其中,为目录结构的目录节点生成标识信息,包括:
采用单个线程为目录结构的目录节点生成标识信息;或者采用多个线程并行地为目录结构的目录节点生成标识信息。


3.如权利要求2所述的方法,其中,采用多个线程并行地为目录结构的目录节点生成标识信息,包括:
采用主线程遍历所述目录结构;
对于遍历到的根目录节点下的目录节点,为所述目录节点生成标识信息;
如果所述目录节点对应于目录,则判断位于对应目录下的文件数量和/或子目录数量是否超过预定阈值;
如果超过,采用新的线程遍历所述目录节点下的目录节点,并在新的线程中重复上述为目录节点生成标识信息和判断位于对应目录下的文件数量和/或子目录数量是否超过预定数值的步骤,所述新的线程以所述目录节点的标识信息为起始标识信息。


4.如权利要求3所述的方法,其中,采用多个线程并行地为目录结构的目录节点生成标识信息,还包括:
如果不超过,继续采用当前线程遍历所述目录节点下的目录节点,并重复上述为目录节点生成标识信息和判断位于对应目录下的文件数量和/或子目录数量是否超过预定数值的步骤。


5.如权利要求3或4所述的方法,其中,对于各线程,为该线程遍历到的目录节点生成标识信息,包括:
至少基于所述线程所遍历的上一个目录节点的标识信息,生成所述线程遍历到的目录节点的标识信息。


6.如权利要求5所述的方法,其中,至少基于所述线程所遍历的上一个目录节点的标识信息,生成所述线程遍历到的目录节点的标识信息,包括:
如果未采用新的线程来遍历所述上一个目录节点下的目录节点,则根据所述上一个目录节点的标识信息生成所述线程遍历到的目录节点的标识信息;
如果采用新的线程来遍历所述上一个目录节点下的目录节点,则根据所述上一个目录节点的标识信息、以及位于所述上一个目录节点对应目录下的文件数量和/或子目录数量,生成所述线程遍历到的目录节点的标识信息。


7.如权利要求5所述的方法,其中,对于各线程,为该线程遍历到的目录节点生成标识信息,包括:
如果所述目录节点为所述线程所遍历的首个目录节点,则根据所述线程的起始标识信息来生成所述目录节点的标识信息。


8.如权利要求1...

【专利技术属性】
技术研发人员:刘俊峰吕鹏程常艳军段培乐姚文辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1