本发明专利技术实施例公开一种数据获取方法、装置、电子设备及存储介质,涉及计算机技术领域,能够有效提高模型训练中训练数据的获取速度。所述数据获取方法,包括:确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。本发明专利技术适用于机器学习的模型训练中。
A data acquisition method, device, electronic equipment and storage medium
【技术实现步骤摘要】
一种数据获取方法、装置、电子设备及存储介质
本专利技术涉及计算机
,尤其涉及一种数据获取方法、装置、电子设备及存储介质。
技术介绍
近年来,人工智能技术在产业和生活中得到了越来越广泛的应用。机器学习作为人工智能领域的一个重要分支,能够通过大量的训练数据,得到较为理想的数学模型,从而模拟人的思维。然而,由于模型训练所需的数据量巨大,常常是千万级的文件数量,训练数据的读取速度成为影响模型训练效率的重要因素。对于模型训练中,训练数据的读取速度较慢的问题,相关领域尚无有效的解决方案。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据获取方法、装置、电子设备及存储介质,能够有效提高模型训练中训练数据的获取速度。第一方面,本专利技术实施例提供一种数据获取方法,包括:确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。可选的,所述预设策略包括:将所述训练数据集中文件大小小于第一阈值的文件作为所述目标文件;或者,根据所述训练数据集中各文件的文件大小以及所述内存剩余空间,确定所述目标文件,以使所述目标文件的数量大于第二阈值,和/或以使所述目标文件保留在内核的页缓存中后,所述内存剩余空间小于第三阈值。可选的,所述在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中包括:从所述训练数据集中读取第一文件;确定所述第一文件是否为首次读取的所述目标文件;在所述第一文件为首次读取的所述目标文件的情况下,为所述第一文件添加预设标记,以使虚拟文件系统VFS根据所述预设标记,将所述第一文件保留在内核的页缓存中。可选的,所述将所述目标文件保留在内核的页缓存中之后,所述方法还包括:接收从所述训练数据集中读取第二文件的指令;在内核的页缓存中查找所述第二文件;在查找到所述第二文件的情况下,从所述内核的页缓存中获取所述第二文件,以利用所述第二文件进行模型训练;在未查找到所述第二文件的情况下,从远端服务器获取所述第二文件,以利用所述第二文件进行模型训练。可选的,所述方法还包括:将所述训练数据集缓存在本地硬盘;在未查找到所述第二文件的情况下,从本地硬盘获取所述第二文件,以利用所述第二文件进行模型训练。可选的,所述确定训练数据集所需的数据存储空间与内存剩余空间的大小关系之前,所述方法还包括:清空内存。第二方面,本专利技术的实施例还提供一种数据获取装置,包括:确定单元,用于确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;选择单元,用于在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;保留单元,用于在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。可选的,所述预设策略包括:将所述训练数据集中文件大小小于第一阈值的文件作为所述目标文件;或者,根据所述训练数据集中各文件的文件大小以及所述内存剩余空间,确定所述目标文件,以使所述目标文件的数量大于第二阈值,和/或以使所述目标文件保留在内核的页缓存中后,所述内存剩余空间小于第三阈值。可选的,所述保留单元包括:读取模块,用于从所述训练数据集中读取第一文件;确定模块,用于确定所述第一文件是否为首次读取的所述目标文件;添加模块,用于在所述第一文件为首次读取的所述目标文件的情况下,为所述第一文件添加预设标记,以使虚拟文件系统VFS根据所述预设标记,将所述第一文件保留在内核的页缓存中。可选的,所述装置还包括:接收单元,用于在将所述目标文件保留在内核的页缓存中之后,接收从所述训练数据集中读取第二文件的指令;查找单元,用于在内核的页缓存中查找所述第二文件;获取单元,用于在查找到所述第二文件的情况下,从所述内核的页缓存中获取所述第二文件,以利用所述第二文件进行模型训练;在未查找到所述第二文件的情况下,从远端服务器获取所述第二文件,以利用所述第二文件进行模型训练。可选的,所述装置还包括:硬盘缓存单元,用于将所述训练数据集缓存在本地硬盘;所述获取单元,还用于在未查找到所述第二文件的情况下,从本地硬盘获取所述第二文件,以利用所述第二文件进行模型训练。可选的,所述装置还包括清空单元,用于在确定训练数据集所需的数据存储空间与内存剩余空间的大小关系之前,清空内存。第三方面,本专利技术的实施例还提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行本专利技术的实施例提供的任一种数据获取方法。第四方面,本专利技术的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现本专利技术的实施例提供的任一种数据获取方法。本专利技术的实施例提供的数据获取方法、装置、电子设备及存储介质,能够确定训练数据集所需的数据存储空间与内存剩余空间的大小关系,在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件,在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。这样,当内存剩余空间无法容纳下训练数据集的全部数据时,缓存中的数据就不会按照默认的文件读取频率的高低来确定是否保留在缓存中,从而导致每次读取文件都由于该文件之前的读取频率过低而无法命中。而是对默认的缓存规则进行主动干预,根据预设策略,在训练数据集中选择了至少一个目标文件进行缓存,从而有效提高了缓存命中率,因此也有效提高了模型训练中训练数据的获取速度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术的实施例提供的数据获取方法的一种流程图;图2为本专利技术的实施例提供的数据获取装置的一种结构示意图;图3为本专利技术的实施例提供的数据获取装置中保留单元的一种结构示意图;图4为本专利技术本文档来自技高网...
【技术保护点】
1.一种数据获取方法,其特征在于,包括:/n确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;/n在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;/n在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。/n
【技术特征摘要】
1.一种数据获取方法,其特征在于,包括:
确定训练数据集所需的数据存储空间与内存剩余空间的大小关系;
在所述数据存储空间大于所述内存剩余空间的情况下,根据预设策略,在所述训练数据集中选择至少一个文件为目标文件;
在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中,以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。
2.根据权利要求1所述的方法,其特征在于,所述预设策略包括:
将所述训练数据集中文件大小小于第一阈值的文件作为所述目标文件;
或者,
根据所述训练数据集中各文件的文件大小以及所述内存剩余空间,确定所述目标文件,以使所述目标文件的数量大于第二阈值,和/或以使所述目标文件保留在内核的页缓存中后,所述内存剩余空间小于第三阈值。
3.根据权利要求1所述的方法,其特征在于,所述在所述目标文件首次被读取后,将所述目标文件保留在内核的页缓存中包括:
从所述训练数据集中读取第一文件;
确定所述第一文件是否为首次读取的所述目标文件;
在所述第一文件为首次读取的所述目标文件的情况下,为所述第一文件添加预设标记,以使虚拟文件系统VFS根据所述预设标记,将所述第一文件保留在内核的页缓存中。
4.根据权利要求1所述的方法,其特征在于,所述将所述目标文件保留在内核的页缓存中之后,所述方法还包括:
接收从所述训练数据集中读取第二文件的指令;
在内核的页缓存中查找所述第二文件;
在查找到所述第二文件的情况下,从所述内核的页缓存中获取所述第二文件,以利用所述第二文件进行模型训练;
在未查找到所述第二文件的情况下,从远端服务器获取所述第二文件,以利用所述第二文件进行模型训练。
5.根据权利要求4所述的方法,其特征在于,还包括:
将所述训练数据集缓存在本地硬盘;
在未查找到所述第二文件的情况下,从本地硬盘获取所述第二文件,以利用所述第二文件进行模型训练。
<...
【专利技术属性】
技术研发人员:余虹建,李锦丰,
申请(专利权)人:北京猎豹移动科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。