一种数据存储方法及装置、数据读取方法及装置、设备制造方法及图纸

技术编号:35498752 阅读:18 留言:0更新日期:2022-11-05 17:02
本发明专利技术公开了一种数据存储方法,该方法包括以下步骤:接收待存储的目标数据集;获取目标数据集中每项数据的数据大小;其中,目标数据集中各项数据的大小相同;将目标数据集中各项数据存储至硬盘中连续且大小相同的各目标区块;其中,各目标区块的区块大小根据数据大小确定。应用本发明专利技术所提供的数据存储方法,节省了数据读取的时间,提升了数据读写效率。本发明专利技术还公开了一种数据存储装置、数据读取方法及装置、设备及存储介质,具有相应技术效果。具有相应技术效果。具有相应技术效果。

【技术实现步骤摘要】
一种数据存储方法及装置、数据读取方法及装置、设备


[0001]本专利技术涉及数据处理
,特别是涉及一种数据存储方法及装置、数据读取方法及装置、设备及非易失性存储介质。

技术介绍

[0002]人工智能在近几年得到了快速发展,人工智能的机器学习需要对数据集进行收集,标记及预处理等。而后才能在机器学习与深度学习的训练与推论中被读取与使用。
[0003]然而数据集的读写对整体人工智能训练与推论的效能有可能有极大的负面影响,主要原因包括:(1)数据集依不同演算法的需求,其个数可能成千上万或更多 (每个都是例如图档,文字或语音);(2)数据集需要经过预处理为可用的训练/测试数据写入硬盘;(3)数据集经过预处理后,通常每项数据都会变小,且其大小是固定的;(4)以上三步骤完成后,训练与推论的过程其实是“读取”成千上万小数据量的数据集数据,进行运算。也就是说要存取一个数据集,实际上需要执行很多系统程序,并且需要在硬盘中花费时间搜寻该数据集的所有数据项,以还原成原来的数据集。需要花费大量时间捜寻硬盘大部份不连续的区块,才能组合为原数据集,导致数据读写效率低。
[0004]综上所述,如何有效地解决花费大量时间捜寻硬盘大部份不连续的区块,才能组合为原数据集,导致数据读写效率低等问题,是目前本领域技术人员急需解决的问题。

技术实现思路

[0005]本专利技术的目的是提供一种数据存储方法,该方法节省了数据读取的时间,提升了数据读写效率;本专利技术的另一目的是提供一种数据存储装置、数据读取方法及装置、设备及非易失性存储介质。
[0006]为解决上述技术问题,本专利技术提供如下技术方案:一种数据存储方法,包括:接收待存储的目标数据集;获取所述目标数据集中每项数据的数据大小;其中,所述目标数据集中各项数据的大小相同;将所述目标数据集中各项数据存储至硬盘中连续且大小相同的各目标区块;其中,各所述目标区块的区块大小根据所述数据大小确定。
[0007]在本专利技术的一种具体实施方式中,在接收待存储的目标数据集之后,获取所述目标数据集中每项数据的数据大小之前,还包括:对所述目标数据集进行第一预处理操作;其中,所述第一预处理操作为未增加数据大小的预处理操作。
[0008]在本专利技术的一种具体实施方式中,对所述目标数据集进行第一预处理操作,包括:对所述目标数据集进行除归一化预处理之外的预处理操作。
[0009]在本专利技术的一种具体实施方式中,接收待存储的目标数据集,包括:
接收待存储的用于人工智能模型训练的目标数据集。
[0010]在本专利技术的一种具体实施方式中,获取所述目标数据集中每项数据的数据大小,包括:获取所述目标数据集中由数据本身、数据标签以及数据档名构成的每项数据的数据大小。
[0011]在本专利技术的一种具体实施方式中,还包括根据所述数据大小确定所述目标区块的区块大小的过程,根据所述数据大小确定所述目标区块的区块大小的过程,包括:获取预设的各可选区块大小;从大于所述数据大小的各所述可选区块大小中选取得到所述目标区块的区块大小。
[0012]在本专利技术的一种具体实施方式中,从大于所述数据大小的各所述可选区块大小中选取得到所述目标区块的区块大小,包括:从大于所述数据大小的各所述可选区块大小中选取与所述数据大小差值最小的可选区块大小;将与所述数据大小差值最小的可选区块大小确定为所述目标区块的区块大小。
[0013]在本专利技术的一种具体实施方式中,在获取预设的各可选区块大小之后,还包括:判断所述数据大小是否小于等于各所述可选区块大小中的最大值;若是,则执行所述从大于所述数据大小的各所述可选区块大小中选取得到所述目标区块的区块大小的步骤;若否,则将各所述可选区块大小中的最大值确定为所述目标区块的区块大小。
[0014]一种数据读取方法,包括:接收数据读取命令;从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据;其中,各所述目标区块的区块大小根据每项数据的数据大小确定,且所述目标数据集中各项数据的大小相同;将读取到的各项数据返回给所述数据读取命令的发送端。
[0015]在本专利技术的一种具体实施方式中,在从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据之后,将读取到的各项数据返回给所述数据读取命令的发送端之前,还包括:对读取到的各项数据进行第二预处理操作;其中,所述第二预处理操作为增加数据大小的预处理操作。
[0016]在本专利技术的一种具体实施方式中,对读取到的各项数据进行第二预处理操作,包括:对读取到的各项数据进行归一化预处理操作。
[0017]在本专利技术的一种具体实施方式中,接收数据读取命令,包括:接收读取用于人工智能模型训练的目标数据集的数据读取命令。
[0018]在本专利技术的一种具体实施方式中,从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据,包括:当所述目标区块的区块大小大于等于所述数据大小时,按照目标区块与每项数据
的一对一关系,从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据。
[0019]在本专利技术的一种具体实施方式中,从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据,包括:当所述目标区块的区块大小小于所述数据大小时,按照目标区块与每项数据的多对一关系,从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据;其中,每项数据预先存储在相邻连续区块中。
[0020]一种数据存储装置,包括:数据集接收模块,用于接收待存储的目标数据集;数据大小获取模块,用于获取所述目标数据集中每项数据的数据大小;其中,所述目标数据集中各项数据的大小相同;数据存储模块,用于将所述目标数据集中各项数据存储至硬盘中连续且大小相同的各目标区块;其中,各所述目标区块的区块大小根据所述数据大小确定。
[0021]一种数据读取装置,包括:读取命令接收模块,用于接收数据读取命令;数据读取模块,用于从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据;其中,各所述目标区块的区块大小根据每项数据的数据大小确定,且所述目标数据集中各项数据的大小相同;数据返回模块,用于将读取到的各项数据返回给所述数据读取命令的发送端。
[0022]一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如前所述数据存储方法或数据读取方法的步骤。
[0023]一种非易失性存储介质,所述非易失性存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述数据存储方法或数据读取方法的步骤。
[0024]本专利技术所提供的数据存储方法,接收待存储的目标数据集;获取目标数据集中每项数据的数据大小;其中,目标数据集中各项数据的大小相同;将所述目标数据集中各项数据存储至硬盘中连续且大小相同的各目标区块;其中,各所述目标区块的区块大小根据所述数据大小确定。
[0025]由上述技术方案可知,通过依据待存储的目标数据集中每项数据的固定大小设定硬盘的目标区块的区块大小,保证目标数据集中各项数据存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:接收待存储的目标数据集;获取所述目标数据集中每项数据的数据大小;其中,所述目标数据集中各项数据的大小相同;将所述目标数据集中各项数据存储至硬盘中连续且大小相同的各目标区块;其中,各所述目标区块的区块大小根据所述数据大小确定。2.根据权利要求1所述的数据存储方法,其特征在于,在接收待存储的目标数据集之后,获取所述目标数据集中每项数据的数据大小之前,还包括:对所述目标数据集进行第一预处理操作;其中,所述第一预处理操作为未增加数据大小的预处理操作。3.根据权利要求2所述的数据存储方法,其特征在于,对所述目标数据集进行第一预处理操作,包括:对所述目标数据集进行除归一化预处理之外的预处理操作。4.根据权利要求1所述的数据存储方法,其特征在于,接收待存储的目标数据集,包括:接收待存储的用于人工智能模型训练的目标数据集。5.根据权利要求1所述的数据存储方法,其特征在于,获取所述目标数据集中每项数据的数据大小,包括:获取所述目标数据集中由数据本身、数据标签以及数据档名构成的每项数据的数据大小。6.根据权利要求1至5任一项所述的数据存储方法,其特征在于,还包括根据所述数据大小确定所述目标区块的区块大小的过程,根据所述数据大小确定所述目标区块的区块大小的过程,包括:获取预设的各可选区块大小;从大于所述数据大小的各所述可选区块大小中选取得到所述目标区块的区块大小。7.根据权利要求6所述的数据存储方法,其特征在于,从大于所述数据大小的各所述可选区块大小中选取得到所述目标区块的区块大小,包括:从大于所述数据大小的各所述可选区块大小中选取与所述数据大小差值最小的可选区块大小;将与所述数据大小差值最小的可选区块大小确定为所述目标区块的区块大小。8.根据权利要求6所述的数据存储方法,其特征在于,在获取预设的各可选区块大小之后,还包括:判断所述数据大小是否小于等于各所述可选区块大小中的最大值;若是,则执行所述从大于所述数据大小的各所述可选区块大小中选取得到所述目标区块的区块大小的步骤;若否,则将各所述可选区块大小中的最大值确定为所述目标区块的区块大小。9.一种数据读取方法,其特征在于,包括:接收数据读取命令;从硬盘中连续且大小相同的各目标区块中读取目标数据集的每项数据;其中,各所述目标区块的区块大小根据每项数据的数据大小确定,且所述目标数据集中各项数据的大小
相同;将读取到的各项数据返回给所述数据读取命令的发送端。10.根据权利要求9所述的数据读取方法,其特征在于,在从硬...

【专利技术属性】
技术研发人员:林楷智蔡志恺黄柏学
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1