【技术实现步骤摘要】
面向机器学习的数据管理方法及装置
本公开总体上涉及机器学习领域,具体涉及一种面向机器学习的数据管理方法及装置。
技术介绍
目前,虽然数据迁移方法已经非常普遍,但是大部分数据迁移方法是数据从一处到另一处的原状迁移。一部分数据迁移方法能够做到在两种不同的数据容器之间对数据进行迁移,但是由于其目的都仅限于对数据容器的兼容并且不同数据容器的存储结构以及能够容纳的元信息成分各有不同,所以在数据的迁移和转换过程中都会或多或少地丢失部分信息或者需要对数据进行二次处理才能将数据应用到机器学习业务。因此,在现有技术中,缺乏能够在对不同类型的数据进行迁移的同时将不同类型的数据有效应用于机器学习的方案。
技术实现思路
为了解决上述问题,本公开提出一种面向机器学习的数据管理方法及装置。根据本公开,提供一种面向机器学习的数据管理方法,所述方法可包括:获取关于目标数据源中的数据的描述信息;根据所述描述信息生成元数据;接入目标数据源;使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;将元数据以及获得的应用于机器学习的数据导入目标数据存储区。根据本公开的一个实施例,所述元数据 ...
【技术保护点】
1.一种面向机器学习的数据管理方法,包括:获取关于目标数据源中的数据的描述信息;根据所述描述信息生成元数据;接入目标数据源;使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;将元数据以及获得的应用于机器学习的数据导入目标数据存储区。
【技术特征摘要】
1.一种面向机器学习的数据管理方法,包括:获取关于目标数据源中的数据的描述信息;根据所述描述信息生成元数据;接入目标数据源;使用所述元数据对目标数据源中的数据进行预处理,以获得应用于机器学习的数据;将元数据以及获得的应用于机器学习的数据导入目标数据存储区。2.如权利要求1所述的数据管理方法,其中,所述元数据具有统一元数据格式。3.如权利要求1所述的数据管理方法,其中,所述预处理包括文件格式转换、文件数据类型的转换、文件切割、文件数据的拼接中的至少一项。4.如权利要求1所述的数据管理方法,其中,所述描述信息由用户通过操作界面输入;或者,所述描述信息从外部被提取。5.如权利要求1所述的数据管理方法,其中,所述数据管理方法由实施机器学习的系统执行,并且,所述描述信息由所述实施机器学习的系统生成。6.如权利要求5所述的数据管理方法,其中,所述数据包括机器学习模型的参数,并且,所述描述信息包括关于所述机器学习模型的超参数、特征和/或训练过程的信息,并且,所述数据管理...
【专利技术属性】
技术研发人员:白羽萌,白杨,张宇,秦文超,李奕慧,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。