机器学习模型构建的方法、装置、设备、介质和程序产品制造方法及图纸

技术编号:37349709 阅读:20 留言:0更新日期:2023-04-22 21:47
根据本公开的实施例提供一种机器学习模型构建的方法、装置、设备、介质和程序产品。在该方法中,将从数据源获取的第一格式的第一数据转换为第二格式的第二数据。第一格式属于预定的多种可读取格式。继而,对第二数据进行验证,并且使用经验证的第二数据来构建机器学习模型。由此,实现了数据读取、数据验证和模型构建的多个过程的集成,而且可以读取和利用多种格式的数据来构建学习模型,从而提高了机器学习模型构建效率以及机器学习模型的性能。习模型构建效率以及机器学习模型的性能。习模型构建效率以及机器学习模型的性能。

【技术实现步骤摘要】
机器学习模型构建的方法、装置、设备、介质和程序产品


[0001]本公开的各实施例涉及计算机
,更具体地,涉及机器学习模型构建的方法、装置、设备、介质和程序产品。

技术介绍

[0002]当前,机器学习过程在很多领域都有非常广泛的应用。在机器学习过程中,机器学习模型可以模拟人类的学习过程,基于输入的数据不断训练和更新。使用经过训练的机器学习模型可以执行自然语言处理、图像和/或语音识别、医学诊断等等各种各样的任务。构建机器学习模型的过程通常包括数据预处理、数据验证、模型架构设计、超参数配置和模型验证等多个过程,这些过程需要统一并集成地执行。

技术实现思路

[0003]本公开的实施例提供了一种机器学习模型构建的方法、装置、设备、介质和程序产品。
[0004]在本公开的第一方面,提供了一种计算机实现的方法。在该方法中,将从数据源获取的第一格式的第一数据,转换为第二格式的第二数据,第一格式属于预定的多种可读取格式。继而,对第二数据进行验证,并且使用经验证的第二数据来构建机器学习模型。
[0005]在本公开的第二方面,提供了一种用于构建机器学习模型的装置。装置包括数据读取模块,被配置为将从数据源获取的第一格式的第一数据,转换为第二格式的第二数据,第一格式属于预定的多种可读取格式。装置还包括数据验证模块,其被配置为对第二数据进行验证。而且,装置包括模型构建模块,其被配置为使用经验证的第二数据来构建机器学习模型。
[0006]在本公开的第三方面,提供了一种电子设备,包括:存储器和处理器;存储器用于存储程序指令,程序指令被处理器执行以实现根据本公开的第一方面的方法。
[0007]在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行以实现根据本公开的第一方面的方法。
[0008]在本公开的第五方面,提供了一种计算机程序产品,包括程序指令,程序指令被处理器执行时实现根据本公开的第一方面的方法。
附图说明
[0009]结合附图并参考以下详细说明,本公开各实现方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中:
[0010]图1示出了本公开的实施例可以在其中的示例环境;
[0011]图2示出了用于构建机器学习模型的方法的流程图;
[0012]图3示出了根据本公开的某些实施例的用于建立以及训练机器学习模型的示例过程;
[0013]图4示出了根据本公开的某些实施例的用于构建机器学习模型的装置的示意性结构框图;以及
[0014]图5示出了根据本公开的示例性实现的电子设备的框图。
具体实施方式
[0015]下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反,提供这些实现是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0016]在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0017]机器学习模型的构建通常涉及数据预处理、数据验证、模型架构设计、超参数配置和模型验证等多个过程。模型构建包括模型建立、训练以及后续更新。模型在最初的训练完成后,还要基于服务数据进行不断更新,从而保证模型工作正常运行。因此,需要设计一种系统来统一并集成地执行用于构建机器学习模型的各个过程。
[0018]为此,本公开的示例实施例提供了一种自建系统来执行机器学习模型的构建。该系统能够对预定的多种可读取格式的数据进行读取和处理。利用该系统,从数据源获取的一种可读取格式(称为“第一格式”)的数据(称为“第一数据”)被读取并且被转换为特定格式(称为“第二格式”)的数据(称为“第二数据”)。在对第二数据进行验证后,利用经验证的第二数据来构建机器学习模型。在本公开的上下文中,模型的构建包括最初的模型建立、模型训练以及后续的模型更新。
[0019]这样,根据本公开的实施例的系统能够对来自不同数据源的多种数据格式的数据进行读取并且将其转换成用于训练和更新机器学习模型的特定格式的数据,并且能够在建立、训练或更新机器学习模型之前对转换后的特定格式的数据进行验证。由此,该系统集成了数据读取、数据验证和模型构建的多个过程,可以读取和利用多种格式的数据来建立、训练和更新机器学习模型,从而显著提高了机器学习模型构建效率,并且提高了机器学习模型的性能。
[0020]图1示出了本公开的实施例可以在其中的示例环境100。
[0021]在环境100中,机器学习模型构建系统110能够基于来自数据源的多种可读取格式的数据120

1、
……
120

N(其中N为任意适当大于1的正整数)构建机器学习模型130。这些数据格式是预先配置的。在本公开的各实施例中,机器学习模型130可以采用当前已知以及将来开发的任何机器学习算法来实现。为了讨论方便,数据120

1、
……
120

N统称为第一格式的第一数据120。
[0022]如图1所示,来自数据源的预定的多种可读取格式中的第一格式的第一数据120通过数据读取模块140读取并且转换成特定的第二格式的第二数据150。第二数据150通过数据验证模块160来验证。经过验证的第二数据150被模型构建模块170用于构建机器学习模
型130。机器学习模型130的构建可以包括最初模型建立和训练期间使用训练数据来训练机器学习模型130的过程,以及后续在模式使用期间使用服务数据来更新机器学习模型130的过程。服务数据可以包括机器学习模型130所应用的服务或业务领域中的数据。
[0023]如此,系统110的多个处理模块(例如,数据读取模块140、数据验证模块160和模型构建模块170)被编排到一个管道中。通过管道编排,可以对这些模块的输入输出进行统一管理,可以通过读取不同时刻的管道状态来对各模块运行状态进行监控,以确保管道的各个部分的顺利运行。
[0024]系统110可以是计算机、虚拟机、服务器等。应当理解,图1中所示的示例环境100仅是示意性的,而无意于限制本公开的范围。示例环境100中还可以包括各种附加的设备、装置和/或模块。
[0025]图2示出了根据本公开的某些实施例的用于构建机器学习模型130的方法200的流程图。方法200可以由图1所示的系统110执行。为讨论方便,下文将结合图1对方法200进行说明。
[0026]如图2所示,在框205,将从数据源获取的属于预定的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:将从数据源获取的第一格式的第一数据,转换为第二格式的第二数据,所述第一格式属于预定的多种可读取格式;对所述第二数据进行验证;以及使用经验证的所述第二数据来构建机器学习模型。2.根据权利要求1所述的方法,其中对所述第二数据进行验证包括:检测所述第二数据与参考数据之间的偏差;以及基于所述偏差超过阈值偏差,确定所述第二数据存在异常。3.根据权利要求2所述的方法,还包括:响应于所述第二数据存在异常,触发关于所述第二数据存在异常的告警。4.根据权利要求1所述的方法,还包括:基于以下至少一项确定所述第一数据存在异常:所述第一数据不可读、所述第一数据的数量低于阈值数量;以及触发关于所述第一数据存在异常的告警。5.根据权利要求1所述的方法,其中对所述第二数据进行验证包括:针对所述第二数据执行可配置的多个验证...

【专利技术属性】
技术研发人员:刘佳宁付聪慧倪泽天易子涵
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1