本发明专利技术提供了一种数据处理方法、装置及系统,该数据处理方法包括:获取原始数据;根据原始数据的数据类型,将原始数据封装成对应的数据容器进行存储;其中,不同的数据类型对应不同类型的数据容器;基于数据容器提供数据处理服务。
Data processing method, device and system
【技术实现步骤摘要】
数据处理方法、装置及系统
本专利技术涉及数据处理
,更具体地,涉及一种数据处理方法、一种数据处理装置、一种包括至少一个计算装置和至少一个存储装置的系统、及一种可读存储介质。
技术介绍
面向人工智能(ArtificialIntelligence,AI)的数据处理过程中,传统的数据处理方法仅能够管理结构化数据,对于非结构化数据、半结构化数据不能很好的进行管理。而且,对于半结构化数据和非结构化数据,基本没有处理能力。例如对于图片类的非结构化数据,需要同时能存储图片数据本身,还要能够存储图片的元数据以及标注信息。但是,图片数据、元数据和标注信息都是割裂存储在不同系统中,使用API(ApplicationProgrammingInterface,应用程序接口)进行粘贴在一起。导致在AI处理过程中,图片数据和标注信息需要在不同系统中拉取,不利于统一的进行读取优化、图片的特征分析,导致对图片数据和标注信息进行大规模并行化处理的效率较低。
技术实现思路
本专利技术的一个目的是提供一种处理数据的新技术方案。根据本专利技术的第一方面,提供了一种数据处理方法,包括:获取原始数据;根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器进行存储;其中,不同的数据类型对应不同类型的数据容器;基于数据容器提供数据处理服务。可选的,所述基于数据容器提供数据处理服务包括:响应于针对指定数据容器执行数据处理的指令,对所述指定数据容器执行至少一个目标操作,得到相应数据处理后的数据;其中,所述至少一个目标操作为所述指定数据容器对应的操作集合中的操作,其中,每个数据容器均有对应的操作集合。可选的,其中,对应的操作集合封装在对应的数据容器中;或者,对应的操作集合在对应的数据容器之外,通过特定关联方式与对应数据容器关联。可选的,不同类型的数据容器对应不同的操作集合。可选的,还包括:将所述处理后的数据封装成新的数据容器;或者,将所述处理后的数据添加至所述指定数据容器中。可选的,所述响应于针对指定数据容器执行数据处理的指令,对所述指定数据容器执行至少一个目标操作,得到相应数据处理后的数据包括:响应于所述指令,根据所述指令获取所述指定数据容器的句柄;根据所述指定数据容器的句柄查找所述指定数据容器;针对所述指定数据容器执行所述目标操作,得到所述处理后的数据。可选的,所述原始数据为结构化数据;所述数据处理方法还包括:检测针对所述数据容器执行对应的操作策略的事件是否发生;在所述事件发生的情况下,针对所述数据容器执行对应的操作策略。可选的,所述操作策略包括以下至少一种:模式推断策略、数据质量检查策略、异常值处理策略、和ETL操作策略。可选的,所述操作策略包括数据质量检查策略,所述数据处理方法还包括:存储所述数据容器中未通过所述数据质量检查策略的数据。可选的,所述事件包括以下至少一项:达到预设的策略执行周期;接收到执行所述操作策略的指令;所述数据容器中增加新的数据。可选的,所述原始数据为非结构化数据;所述根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器包括:根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器中的文件对象。可选的,还包括:将所述数据容器存储在分布式存储系统中。可选的,所述原始数据中包括图片数据;所述数据处理方法还包括:检测所述原始数据中是否包含与所述图片数据对应的图片标注信息;在所述原始数据中未包含所述图片标注信息的情况下,将所述图片数据上传至标注平台进行标注;从所述标注平台获取所述图片数据的图片标注信息,并将所述图片标注信息存储至所述图片数据对应的数据容器中。可选的,还包括:响应于分区载入所述原始数据的操作,提供用于存储原始数据的多个数据分区;获取用户选择的至少一个目标数据分区、及每个目标数据分区所对应的原始数据;所述根据所述原始数据的数据类型,将所述原始数据转换为对应的数据容器之后还包括:将每个数据容器存储至对应的目标数据分区中。根据本专利技术的第二方面,提供了一种数据处理装置,包括:数据获取模块,用于获取原始数据;容器封装模块,用于根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器进行存储;其中,不同的数据类型对应不同类型的数据容器;数据处理模块,用于基于数据容器提供数据处理服务。可选的,所述数据处理模块用于:响应于针对指定数据容器执行数据处理的指令,对所述指定数据容器执行至少一个目标操作,得到相应数据处理后的数据;其中,所述至少一个目标操作为所述指定数据容器对应的操作集合中的操作,其中,每个数据容器均有对应的操作集合。可选的,对应的操作集合封装在对应的数据容器中;或者,对应的操作集合在对应的数据容器之外,通过特定关联方式与对应数据容器关联。可选的,不同类型的数据容器对应不同的操作集合。可选的,还包括:用于将所述处理后的数据封装成新的数据容器的模块;或者,用于将所述处理后的数据添加至所述指定数据容器中的模块。可选的,所述响应于针对指定数据容器执行数据处理的指令,对所述指定数据容器执行至少一个目标操作,得到相应数据处理后的数据包括:响应于所述指令,根据所述指令获取所述指定数据容器的句柄;根据所述指定数据容器的句柄查找所述指定数据容器;针对所述指定数据容器执行所述目标操作,得到所述处理后的数据。可选的,所述原始数据为结构化数据;所述数据处理装置还包括:用于检测针对所述数据容器执行对应的操作策略的事件是否发生的模块;用于在所述事件发生的情况下,针对所述数据容器执行对应的操作策略的模块。可选的,所述操作策略包括以下至少一种:模式推断策略、数据质量检查策略、异常值处理策略、和ETL操作策略。可选的,所述操作策略包括数据质量检查策略,所述数据处理装置还包括:用于存储所述数据容器中未通过所述数据质量检查策略的数据的模块。可选的,所述事件包括以下至少一项:达到预设的策略执行周期;接收到执行所述操作策略的指令;所述数据容器中增加新的数据。可选的,所述原始数据为非结构化数据;所述根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器包括:根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器中的文件对象。可选的,还包括:用于将所述数据容器存储在分布式存储系统中的模块。可选的,所述原始数据中包括图片数据;所述数据处理装置还包括:用于检测所述原始数据中是否包含与所述图片数据对应的图片标注信息的模块;用于在所述原始数据中未包含所述图本文档来自技高网...
【技术保护点】
1.一种数据处理方法,包括:/n获取原始数据;/n根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器进行存储;其中,不同的数据类型对应不同类型的数据容器;/n基于数据容器提供数据处理服务。/n
【技术特征摘要】
1.一种数据处理方法,包括:
获取原始数据;
根据所述原始数据的数据类型,将所述原始数据封装成对应的数据容器进行存储;其中,不同的数据类型对应不同类型的数据容器;
基于数据容器提供数据处理服务。
2.根据权利要求1所述的数据处理方法,其中,所述基于数据容器提供数据处理服务包括:
响应于针对指定数据容器执行数据处理的指令,对所述指定数据容器执行至少一个目标操作,得到相应数据处理后的数据;其中,所述至少一个目标操作为所述指定数据容器对应的操作集合中的操作,其中,每个数据容器均有对应的操作集合。
3.根据权利要求2所述的数据处理方法,其中,
对应的操作集合封装在对应的数据容器中;或者,
对应的操作集合在对应的数据容器之外,通过特定关联方式与对应数据容器关联。
4.根据权利要求1所述的数据处理方法,不同类型的数据容器对应不同的操作集合。
5.根据权利要求1所述的数据处理方法,还包括:
将所述处理后的数据封装成新的数据容器;或者,将所述处理后的数据添加至所述指定数据容器中。
6.根据权利要求1所述的数据处理方法,所述响应于针对指定数据容器执行数据处理的指令,对所述指定数据容器执...
【专利技术属性】
技术研发人员:许江,白杨,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。