分布式数据删除流控方法、装置、电子设备及存储介质制造方法及图纸

技术编号:19692241 阅读:36 留言:0更新日期:2018-12-08 11:17
一种分布式数据删除流控方法,包括:接收到客户端发送的数据删除请求时,将所述数据删除请求添加至配置的处理队列中,同时向所述客户端返回数据删除成功的信息;每隔预设时间段获取所述处理队列中的数据删除请求;根据数据删除请求确定对应的待删除数据的索引信息;将所述待删除数据的索引信息存入配置的数据库中;获取删除周期内的当前统计周期对应的流控阈值;基于所述当前统计周期对应的流控阈值,将数据库中的所述索引信息对应的数据进行删除。本发明专利技术还提供一种分布式数据删除流控装置、电子设备及存储介质。本发明专利技术能够在提高大规模分布式存储系统的数据删除效率的同时,避免对正常输入输出业务性能造成明显冲击,具有很好的流控效果。

【技术实现步骤摘要】
分布式数据删除流控方法、装置、电子设备及存储介质
本专利技术涉及计算机
,具体涉及一种分布式数据删除流控方法、装置、电子设备及存储介质。
技术介绍
随着网络应用的迅速发展,网络信息数据量越来越大,海量数据存储变得越来越重要。传统意义的本地磁盘存储方式已不能满足现有应用的大容量、高可靠性、高性能、横向扩展等要求,为满足这些新要求,基于网络的分布式存储系统得到了广泛重视。尽管对于客户端来说,对分布式数据进行删除操作相较于读写操作是非常轻量级的操作类型,可以快速完成,但具体到后端的分布式文件系统,删除操作与读写操作所经过的输入输出输入输出(Input/Output,IO)路径是相同的,这种处理方式等待响应时间较长,所带来的延时非常明显,尤其是在执行海量小文件的批量删除操作时,甚至会影响用户的正常业务。此外,文件删除操作会产生数据的输入输出(IO),如果在分布式存储系统进行大批量文件删除操作的时候正好是用户应用的IO高峰,则文件删除操作的IO会对用户应用的IO产生影响,从而降低用户应用的使用体验,甚至产生系统故障。
技术实现思路
鉴于以上内容,有必要提出一种分布式数据删除流控方法、装置、电子设备及存储介质,能够在提高大规模分布式存储系统的数据删除效率的同时,避免对正常输入输出业务性能造成明显冲击,具有很好的流控效果。本专利技术的第一方面提供一种分布式数据删除流控方法,所述方法包括:接收到客户端发送的数据删除请求时,将所述数据删除请求添加至配置的处理队列中,同时向所述客户端返回数据删除成功的信息;每隔预设时间段获取所述处理队列中的数据删除请求;根据所述数据删除请求确定对应的待删除数据的索引信息;将所述待删除数据的索引信息存入配置的数据库中;获取删除周期内的当前统计周期对应的流控阈值;基于所述当前统计周期对应的流控阈值,将所述数据库中的所述索引信息对应的数据进行删除。优选的,所述根据所述数据删除请求确定对应的待删除数据的索引信息包括:从多个存储节点中找到存储有所述数据删除请求对应的待删除数据的存储节点;根据所述数据删除请求从匹配出的存储节点中获取所述待删除数据的索引信息。优选的,所述获取删除周期内的当前统计周期对应的流控阈值包括:判断当前统计周期是否为第一个统计周期;当确定所述当前统计周期为第一个统计周期时,将预设流控阈值确定为所述当前统计周期对应的流控阈值;当确定所述当前统计周期不为第一个统计周期时,获取上一个统计周期内用户应用的IO负载,根据所述上一个统计周期内用户应用的IO负载,确定所述当前统计周期对应的流控阈值。优选的,所述根据所述上一个统计周期内用户应用的IO负载,确定所述当前统计周期对应的流控阈值包括:获取上一个统计周期内用户应用的每一个IO的数据块大小,计算所述上一个统计周期内的IO的平均数据块大小;获取所述上一个统计周期内的每个数据块的传输时延,计算所述上一个统计周期内的IO的平均数据块时延;获取预先设置的IO的数据块大小的基准值及对应的数据块时延的基准值;根据所述上一个统计周期内的所述IO的平均数据块大小、平均数据块时延、数据块大小的基准值、对应的数据块时延的基准值,计算所述上一个统计周期内的IO负载强度;根据所述上一个统计周期内的IO负载强度,利用预先训练好的负载分类模型确定所述上一个统计周期内的IO负载类别;根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值。优选的,所述根据所述上一个统计周期内的所述IO的平均数据块大小、平均数据块时延、数据块大小的基准值、对应的数据块时延的基准值,计算所述上一个统计周期内的IO负载强度的计算公式为:其中,X为上述上一个统计周期内的所述IO的平均数据块大小,Y为所述平均数据块时延,M为所述数据块大小的基准值,N为所述对应的数据块时延的基准值。优选的,所述负载分类模型的训练过程包括:获取正样本的IO负载数据及负样本的IO负载数据,并将正样本的IO负载数据标注负载类别,以使正样本的IO负载数据携带IO负载类别标签;将所述正样本的IO负载数据及所述负样本的IO负载数据随机分成第一预设比例的训练集和第二预设比例的验证集,利用所述训练集训练支持向量机分类模型,并利用所述验证集验证训练后的所述支持向量机分类模型的准确率;若所述准确率大于或者等于预设准确率阈值时,则结束训练,以训练后的所述支持向量机分类模型作为负载分类模型识别所述当前统计周期内的IO负载类别。优选的,所述根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值包括:当所述上一个统计周期内的IO负载类别为高负载类别时,将所述上一个统计周期对应的流控阈值降低第一预设幅度,得到当前统计周期对应的流控阈值;当所述上一个统计周期内的IO负载类别为低负载类别时,将所述上一个统计周期对应的流控阈值提高第二预设幅度,得到下一个统计周期对应的流控阈值;当所述上一个统计周期内的IO负载类别为正常负载类别时,将所述上一个统计周期对应的流控阈值作为当前统计周期对应的流控阈值。本专利技术的第二方面提供一种分布式数据删除流控装置,所述装置包括:请求响应模块,用于接收到客户端发送的数据删除请求时,将所述数据删除请求添加至配置的处理队列中,同时向所述客户端返回数据删除成功的信息;请求获取模块,用于每隔预设时间段获取所述处理队列中的数据删除请求;索引确定模块,用于根据所述数据删除请求确定对应的待删除数据的索引信息;索引存储模块,用于将所述待删除数据的索引信息存入配置的数据库中;流控获取模块,用于获取删除周期内的当前统计周期对应的流控阈值;数据删除模块,用于基于所述当前统计周期对应的流控阈值,将所述数据库中的所述索引信息对应的数据进行删除。本专利技术的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述分布式数据删除流控方法。本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式数据删除流控方法。本专利技术所述的分布式数据删除流控方法、装置、电子设备及存储介质,能够在接收到客户端请求删除数据时,先向客户端返回数据已删除的信息,将所述数据删除请求添加至配置的处理队列中,后续在获取处理队列中的数据删除请求时真正将数据删除,即响应客户端的数据删除请求和执行删除数据的操作异步经常,从而有效的缩短客户端的等待时间;另外,在获取到处理队列中的数据删除请求时,是通过获取不同统计周期对应的流控阈值,基于每一个统计周期对应的流控阈值,对所述客户端请求删除的数据进行删除,在提高分布式数据删除的效率的同时,能够避免对正常输入输出业务性能造成明显冲击,具有很好的流控效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1是本专利技术实施例一提供的分布式数据删除流控方法的流程图。图2是本专利技术实施例二提供的根据上一个统计周期内用户应用的IO负载确定当前统计周期对应的流控阈值的方法的流程图。图3是本专利技术实施例三本文档来自技高网...

【技术保护点】
1.一种分布式数据删除流控方法,其特征在于,所述方法包括:接收到客户端发送的数据删除请求时,将所述数据删除请求添加至配置的处理队列中,同时向所述客户端返回数据删除成功的信息;每隔预设时间段获取所述处理队列中的数据删除请求;根据所述数据删除请求确定对应的待删除数据的索引信息;将所述待删除数据的索引信息存入配置的数据库中;获取删除周期内的当前统计周期对应的流控阈值;基于所述当前统计周期对应的流控阈值,将所述数据库中的所述索引信息对应的数据进行删除。

【技术特征摘要】
1.一种分布式数据删除流控方法,其特征在于,所述方法包括:接收到客户端发送的数据删除请求时,将所述数据删除请求添加至配置的处理队列中,同时向所述客户端返回数据删除成功的信息;每隔预设时间段获取所述处理队列中的数据删除请求;根据所述数据删除请求确定对应的待删除数据的索引信息;将所述待删除数据的索引信息存入配置的数据库中;获取删除周期内的当前统计周期对应的流控阈值;基于所述当前统计周期对应的流控阈值,将所述数据库中的所述索引信息对应的数据进行删除。2.如权利要求1所述的方法,其特征在于,所述根据所述数据删除请求确定对应的待删除数据的索引信息包括:从多个存储节点中找到存储有所述数据删除请求对应的待删除数据的存储节点;根据所述数据删除请求从匹配出的存储节点中获取所述待删除数据的索引信息。3.如权利要求1所述的方法,其特征在于,所述获取删除周期内的当前统计周期对应的流控阈值包括:判断当前统计周期是否为第一个统计周期;当确定所述当前统计周期为第一个统计周期时,将预设流控阈值确定为所述当前统计周期对应的流控阈值;当确定所述当前统计周期不为第一个统计周期时,获取上一个统计周期内用户应用的IO负载,根据所述上一个统计周期内用户应用的IO负载,确定所述当前统计周期对应的流控阈值。4.如权利要求3所述的方法,其特征在于,所述根据所述上一个统计周期内用户应用的IO负载,确定所述当前统计周期对应的流控阈值包括:获取上一个统计周期内用户应用的每一个IO的数据块大小,计算所述上一个统计周期内的IO的平均数据块大小;获取所述上一个统计周期内的每个数据块的传输时延,计算所述上一个统计周期内的IO的平均数据块时延;获取预先设置的IO的数据块大小的基准值及对应的数据块时延的基准值;根据所述上一个统计周期内的所述IO的平均数据块大小、平均数据块时延、数据块大小的基准值、对应的数据块时延的基准值,计算所述上一个统计周期内的IO负载强度;根据所述上一个统计周期内的IO负载强度,利用预先训练好的负载分类模型确定所述上一个统计周期内的IO负载类别;根据上一个统计周期内的IO负载类别计算当前统计周期对应的流控阈值。5.如权利要求4所述的方法,其特征在于,所述根据所述上一个统计周期内的所述IO的平均数据块大小、平均数据块时延、数据块大小的基准值、对应的数据块时延的基准值,计算所述上一个统计周期内的IO负载强度的计算公式为:其中,X为上述上一个统计周期内的所述IO的平均...

【专利技术属性】
技术研发人员:陈学伟
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1