【技术实现步骤摘要】
代码版本管理系统及方法本申请是申请号为201610282533.2,申请日为2016年4月29日,申请人为清华大学,专利技术名称为数据和代码版本管理系统及方法的专利技术专利的分案申请。
本申请涉及数据分析领域,特别是涉及一种数据和代码版本管理系统及方法。
技术介绍
近几年,人们收集了大量的数据。同时,数据科学家也成为各大公司炙手可热的工作。但是,现在缺乏足够的工具帮助数据科学家分析数据流。随着数据科学的任务越来越复杂,许多数据分析师开始改造代码版本工具,比如说Git。但是,数据科学的任务并不是Git可以完全处理的。首先,数据科学是以数据为中心的。一个数据集可以经过清洗、标记和预处理等几个操作。这样数据集就产生了多个版本。数据科学家需要记录这些版本以及随时修改数据。一种常见但并不推荐的方法就是保存多个副本,并将些副本分别命名为data.csv,data-version1.csv,data-final-version.csv,data-last-version.csv。这种命名方式经常使人们感到很混乱。而因为版本或者数据集弄错经常会导致一些错误。第二,一个机器学习模型 ...
【技术保护点】
1.一种代码版本管理系统,其特征在于,包括:数据管理模块,存储有至少一个数据集;代码管理模块,存储有至少一个执行代码,所述执行代码用于对所述数据管理模块存储的至少一个数据集进行操作;所述代码管理模块还用于接收用户推送的代码予以存储或依据用户推送的代码发送一代码处理请求;执行引擎模块,配置有至少一种执行后端引擎,用于接收到执行命令时,依据一执行命令调用所述执行后端引擎,运行一执行代码以对所述数据管理模块中的一数据集执行操作;系统核心模块,用于记录用户推送的代码并形成代码版本信息,以及接收到所述代码管理模块的代码处理请求时,发送一执行命令给所述执行引擎模块,令其运行所述代码管理 ...
【技术特征摘要】
1.一种代码版本管理系统,其特征在于,包括:数据管理模块,存储有至少一个数据集;代码管理模块,存储有至少一个执行代码,所述执行代码用于对所述数据管理模块存储的至少一个数据集进行操作;所述代码管理模块还用于接收用户推送的代码予以存储或依据用户推送的代码发送一代码处理请求;执行引擎模块,配置有至少一种执行后端引擎,用于接收到执行命令时,依据一执行命令调用所述执行后端引擎,运行一执行代码以对所述数据管理模块中的一数据集执行操作;系统核心模块,用于记录用户推送的代码并形成代码版本信息,以及接收到所述代码管理模块的代码处理请求时,发送一执行命令给所述执行引擎模块,令其运行所述代码管理模块中的执行代码,并在所述执行代码对所述数据管理模块中的一数据集执行操作后记录形成的代码版本信息。2.根据权利要求1所述的代码版本管理系统,其特征在于:所述数据集的数据存储于一第一存储单元,所述数据集的元数据存储于一第二存储单元,且所述数据集的数据及元数据藉由一数据ID相关联。3.根据权利要求1所述的代码版本管理系统,其特征在于:所述系统核心模块还用于依据用户提交的数据处理请求将一执行代码复制至所述执行引擎模块中,并发送一执行命令给所述执行引擎模块令其运行所述执行代码以形成一新数据集,并形成一代码ID将所述执行代码与所述新数据集相关联,并记录形成的代码版本信息。4.根据权利要求1所述的代码版本管理系统,其特征在于:所述系统核心模块依据所述数据处理请求复制至所述执行引擎模块的执行代码为用户提交的新执行代码或者调用的所述代码管理模块中存储的执行代码。5.根据权利要求1、2、3、或4所述的代码版本管理系统,其特征在于:还包括用户接口模块,配置有多种用户UI,用以分别接收不同用户提交的请求或向不同用户反馈请求信息。6.根据权利要求1、2、3、或4所述的代码版本管理系统,其特征在于:所述代码版本信息包括代码名称、代码ID、形成时...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。