机器学习系统的数据接入方法、装置、系统和存储介质制造方法及图纸

技术编号:28837566 阅读:13 留言:0更新日期:2021-06-11 23:35
本公开实施例涉及机器学习系统的数据接入方法、装置、系统和存储介质。数据接入方法包括:获取指定的应用场景信息和指定的数据源信息;获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;基于指定的应用场景信息、指定的数据源信息和指定的数据转换脚本信息,配置数据接入任务;执行数据接入任务,以使数据接入任务将指定的数据源的数据接入机器学习系统。本公开实施例中,针对不同的应用场景信息、不同的数据源信息和不同的数据转换脚本信息,可配置不同的数据接入任务,以满足外部数据接入机器学习系统时数据格式的转换需求,避免数据格式不符导致接入失败的问题。

【技术实现步骤摘要】
机器学习系统的数据接入方法、装置、系统和存储介质
本公开实施例涉及机器学习
,具体涉及一种机器学习系统的数据接入方法、装置、系统和存储介质。
技术介绍
机器学习系统是自动化构建机器学习模型、自动化应用机器学习模型(以提供模型预估服务)、自动化更新机器学习模型的一种全流程机器学习系统。用户无需机器学习专业技能,即可使用机器学习系统实现人工智能(AI)技术在实际场景的落地。机器学习系统通常需要接入多种数据流以便实现上述自动化全流程,其中,多种数据流例如包括:请求数据流、反馈数据流、曝光数据流、业务数据流。机器学习系统的请求数据流、反馈数据流、曝光数据流对外暴露的是HTTP(HypertextTransferProtocol,超文本传输协议)接口,在实际应用场景中,客户返回的反馈数据流、曝光数据流可能存放在某个队列中,需要通过消费队列中的数据实现将数据实时接入机器学习系统。而机器学习系统的业务数据流对外暴露的是kafka(分布式发布订阅消息系统)接口,在实际应用场景中,业务数据可能存放在HDFS(HadoopDistributedFileSystem,分布式文件系统)、本地磁盘等多种存储介质中,需要通过从存储介质中拉取数据实现将数据批量接入机器学习系统。另外,客户侧的数据格式(包括字段名称、字段格式等)可能与机器学习系统的数据格式不符,因此在外部数据(例如客户侧的数据,也即机器学习系统内部生成的数据非外部数据)接入机器学习系统之前,需要进行数据格式转换,以使外部数据的数据格式与机器学习系统的数据格式相符。r>为此,亟需提供一种机器学习系统的数据接入方案,以便将外部数据接入机器学习系统。
技术实现思路
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种机器学习系统的数据接入方法、装置、系统和存储介质。第一方面,本公开实施例提供一种机器学习系统的数据接入方法,所述机器学习系统预先设置不同应用场景下的输入数据流的第一格式,所述方法包括:获取指定的应用场景信息和指定的数据源信息;获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;基于所述指定的应用场景信息、所述指定的数据源信息和所述指定的数据转换脚本信息,配置数据接入任务;执行所述数据接入任务,以使所述数据接入任务将指定的数据源的数据接入所述机器学习系统。在一些实施例中,所述获取指定的应用场景信息包括:接收用于获取应用场景的请求;获取所述机器学习系统预先设置的一个或多个应用场景信息;响应所述请求而反馈所述一个或多个应用场景信息;接收从所述一个或多个应用场景信息中指定的应用场景信息。在一些实施例中,所述获取指定的应用场景信息之前,所述方法还包括:提供用户界面;相应地,所述接收用于获取应用场景的请求包括:接收用户在所述用户界面发起的所述请求;所述反馈所述一个或多个应用场景信息后,所述方法还包括:在所述用户界面上加载所述一个或多个应用场景信息;所述接收从所述一个或多个应用场景信息中指定的应用场景信息包括:接收用户在所述用户界面上指定的应用场景信息。在一些实施例中,所述获取指定的应用场景信息之前,所述方法还包括:提供用户界面;所述获取指定的应用场景信息包括:获取所述机器学习系统预先设置的一个或多个应用场景信息;在所述用户界面上加载所述一个或多个应用场景信息;接收用户在所述用户界面上指定的应用场景信息。在一些实施例中,所述指定的数据源信息包括:数据源类型和数据源地址;所述获取指定的数据转换脚本信息包括:基于所述数据源类型,获取指定的应用场景下的输入数据流的第一格式;基于所述数据源地址,确定指定的数据源的第二格式;基于所述第一格式和所述第二格式,获取指定的数据转换脚本信息。在一些实施例中,所述方法还包括:预先配置一个或多个数据转换脚本,每个所述数据转换脚本与一个数据源和一个应用场景相匹配,用于将匹配的数据源的第二格式转换为匹配的应用场景下的输入数据流的第一格式;所述获取指定的数据转换脚本信息包括:获取从预先配置的一个或多个数据转换脚本信息中指定的数据转换脚本信息。在一些实施例中,所述获取指定的数据转换脚本信息之前,所述方法还包括:提供用户界面;所述获取指定的数据转换脚本信息包括:在所述用户界面上加载一个或多个数据转换脚本信息;接收用户在所述用户界面上指定的数据转换脚本信息。在一些实施例中,所述方法还包括:基于所述指定的数据源信息,配置任务执行时间策略;所述执行所述数据接入任务包括:基于所述任务执行时间策略调度所述数据接入任务。在一些实施例中,所述数据接入任务将指定的数据源的数据接入所述机器学习系统包括:所述数据接入任务基于所述指定的应用场景信息,查询指定的应用场景下的输入数据流的服务地址;所述数据接入任务基于所述指定的数据源信息,查询指定的数据源的类型和地址;所述数据接入任务基于所述指定的数据转换脚本信息,查询指定的数据转换脚本;所述数据接入任务基于所述服务地址、所述指定的数据源的类型和地址、所述指定的数据转换脚本,将指定的数据源的数据接入所述机器学习系统。在一些实施例中,所述数据接入任务基于所述服务地址、所述指定的数据源的类型和地址、所述指定的数据转换脚本,将指定的数据源的数据接入所述机器学习系统包括:所述数据接入任务从指定的数据源的地址获取数据,并基于所述指定的数据转换脚本,将所述获取数据的第二格式转换为与指定的数据源的类型相匹配的输入数据流的第一格式;所述数据接入任务基于所述服务地址,将所述指定的数据转换脚本输出的数据接入所述机器学习系统。第二方面,本公开实施例还提供一种机器学习系统的数据接入装置,所述机器学习系统预先设置不同应用场景下的输入数据流的第一格式,所述装置包括:第一获取单元,用于获取指定的应用场景信息和指定的数据源信息;第二获取单元,用于获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;配置单元,用于基于所述指定的应用场景信息、所述指定的数据源信息和所述指定的数据转换脚本信息,配置数据接入任务;执行单元,用于执行所述数据接入任务,以使所述数据接入任务将指定的数据源的数据接入所述机器学习系统。在一些实施例中,所述第一获取单元获取指定的应用场景信息包括:接收用于获取应用场景的请求;获取所述机器学习系统预先设置的一个或多个应用场景信息;响应所述请求而反馈所述一个或多个应用场景信息;接收从所述一个或多个应用场景信息中指定的应用场景信息。在一些实施例中,所述第一获取单元本文档来自技高网...

【技术保护点】
1.一种机器学习系统的数据接入方法,所述机器学习系统预先设置不同应用场景下的输入数据流的第一格式,所述方法包括:/n获取指定的应用场景信息和指定的数据源信息;/n获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;/n基于所述指定的应用场景信息、所述指定的数据源信息和所述指定的数据转换脚本信息,配置数据接入任务;/n执行所述数据接入任务,以使所述数据接入任务将指定的数据源的数据接入所述机器学习系统。/n

【技术特征摘要】
1.一种机器学习系统的数据接入方法,所述机器学习系统预先设置不同应用场景下的输入数据流的第一格式,所述方法包括:
获取指定的应用场景信息和指定的数据源信息;
获取指定的数据转换脚本信息,指定的数据转换脚本用于将指定的数据源的第二格式转换为指定的应用场景下的输入数据流的第一格式;
基于所述指定的应用场景信息、所述指定的数据源信息和所述指定的数据转换脚本信息,配置数据接入任务;
执行所述数据接入任务,以使所述数据接入任务将指定的数据源的数据接入所述机器学习系统。


2.根据权利要求1所述的方法,其中,所述获取指定的应用场景信息包括:
接收用于获取应用场景的请求;
获取所述机器学习系统预先设置的一个或多个应用场景信息;
响应所述请求而反馈所述一个或多个应用场景信息;
接收从所述一个或多个应用场景信息中指定的应用场景信息。


3.根据权利要求2所述的方法,其中,所述获取指定的应用场景信息之前,所述方法还包括:
提供用户界面;
相应地,所述接收用于获取应用场景的请求包括:接收用户在所述用户界面发起的所述请求;
所述反馈所述一个或多个应用场景信息后,所述方法还包括:在所述用户界面上加载所述一个或多个应用场景信息;
所述接收从所述一个或多个应用场景信息中指定的应用场景信息包括:接收用户在所述用户界面上指定的应用场景信息。


4.根据权利要求1所述的方法,其中,所述获取指定的应用场景信息之前,所述方法还包括:
提供用户界面;
所述获取指定的应用场景信息包括:
获取所述机器学习系统预先设置的一个或多个应用场景信息;
在所述用户界面上加载所述一个或多个应用场景信息;
接收用户在所述用户界面上指定的应用场景信息。


5.根据权利要求1所述的方法,其中,所述指定的数据源信息包括:数据源类型和数据源地址;
所述获取指定的数据转换脚本信息包括:
基于所述数据源类型,获取指定的应用场景下的输入数据流的第一格式;<...

【专利技术属性】
技术研发人员:平津詹镇江
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1