一种数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24455724 阅读：48 留言：0更新日期：2020-06-10 15:29

本发明专利技术实施例公开一种数据获取方法、装置、电子设备及存储介质，涉及计算机技术领域，能够有效提高模型训练中训练数据的获取速度。所述数据获取方法，包括：确定训练数据集所需的数据存储空间与内存剩余空间的大小关系；在所述数据存储空间大于所述内存剩余空间的情况下，根据预设策略，在所述训练数据集中选择至少一个文件为目标文件；在所述目标文件首次被读取后，将所述目标文件保留在内核的页缓存中，以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。本发明专利技术适用于机器学习的模型训练中。

A data acquisition method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种数据获取方法、装置、电子设备及存储介质
本专利技术涉及计算机
，尤其涉及一种数据获取方法、装置、电子设备及存储介质。
技术介绍
近年来，人工智能技术在产业和生活中得到了越来越广泛的应用。机器学习作为人工智能领域的一个重要分支，能够通过大量的训练数据，得到较为理想的数学模型，从而模拟人的思维。然而，由于模型训练所需的数据量巨大，常常是千万级的文件数量，训练数据的读取速度成为影响模型训练效率的重要因素。对于模型训练中，训练数据的读取速度较慢的问题，相关领域尚无有效的解决方案。
技术实现思路
有鉴于此，本专利技术实施例提供一种数据获取方法、装置、电子设备及存储介质，能够有效提高模型训练中训练数据的获取速度。第一方面，本专利技术实施例提供一种数据获取方法，包括：确定训练数据集所需的数据存储空间与内存剩余空间的大小关系；在所述数据存储空间大于所述内存剩余空间的情况下，根据预设策略，在所述训练数据集中选择至少一个文件为目标文件；在所述目标文件首次被读取后，将所述目标文件保留在内核的页缓存中，以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。可选的，所述预设策略包括：将所述训练数据集中文件大小小于第一阈值的文件作为所述目标文件；或者，根据所述训练数据集中各文件的文件大小以及所述内存剩余空间，确定所述目标文件，以使所述目标文件的数量大于第二阈值，和/或以使所述目标文件保留在内核的页缓存中后，所述内存剩余空间...

【技术保护点】
1.一种数据获取方法，其特征在于，包括：/n确定训练数据集所需的数据存储空间与内存剩余空间的大小关系；/n在所述数据存储空间大于所述内存剩余空间的情况下，根据预设策略，在所述训练数据集中选择至少一个文件为目标文件；/n在所述目标文件首次被读取后，将所述目标文件保留在内核的页缓存中，以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。/n

【技术特征摘要】
1.一种数据获取方法，其特征在于，包括：
确定训练数据集所需的数据存储空间与内存剩余空间的大小关系；
在所述数据存储空间大于所述内存剩余空间的情况下，根据预设策略，在所述训练数据集中选择至少一个文件为目标文件；
在所述目标文件首次被读取后，将所述目标文件保留在内核的页缓存中，以便将来再次读取所述目标文件时从所述内核的页缓存中获取所述目标文件。

2.根据权利要求1所述的方法，其特征在于，所述预设策略包括：
将所述训练数据集中文件大小小于第一阈值的文件作为所述目标文件；
或者，
根据所述训练数据集中各文件的文件大小以及所述内存剩余空间，确定所述目标文件，以使所述目标文件的数量大于第二阈值，和/或以使所述目标文件保留在内核的页缓存中后，所述内存剩余空间小于第三阈值。

3.根据权利要求1所述的方法，其特征在于，所述在所述目标文件首次被读取后，将所述目标文件保留在内核的页缓存中包括：
从所述训练数据集中读取第一文件；
确定所述第一文件是否为首次读取的所述目标文件；
在所述第一文件为首次读取的所述目标文件的情况下，为所述第一文件添加预设标记，以使虚拟文件系统VFS根据所述预设标记，将所述第一文件保留在内核的页缓存中。

4.根据权利要求1所述的方法，其特征在于，所述将所述目标文件保留在内核的页缓存中之后，所述方法还包括：
接收从所述训练数据集中读取第二文件的指令；
在内核的页缓存中查找所述第二文件；
在查找到所述第二文件的情况下，从所述内核的页缓存中获取所述第二文件，以利用所述第二文件进行模型训练；
在未查找到所述第二文件的情况下，从远端服务器获取所述第二文件，以利用所述第二文件进行模型训练。

5.根据权利要求4所述的方法，其特征在于，还包括：
将所述训练数据集缓存在本地硬盘；
在未查找到所述第二文件的情况下，从本地硬盘获取所述第二文件，以利用所述第二文件进行模型训练。

<...

【专利技术属性】
技术研发人员：余虹建，李锦丰，
申请(专利权)人：北京猎豹移动科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人