集成特征工程制造技术

技术编号:39001628 阅读:8 留言:0更新日期:2023-10-07 10:33
一种特征工程应用程序从不同的数据源接收多个数据集合,用于训练模型,该模型用于基于新数据进行预测。特征工程应用程序基于数据集合生成基元。将基元应用于数据集合中的变量以合成特征。特征工程应用程序还接收时间参数,该时间参数指定用于生成基于时间的特征的时间值。在生成基元并接收到时间参数之后,特征工程应用程序基于多个数据实体中的主变量,聚合多个数据实体,并基于该聚合生成实体集合。特征工程应用程序然后基于实体集合、至少一些基元和时间参数来合成特征,该特征包括基于时间的特征。于时间的特征。于时间的特征。

【技术实现步骤摘要】
【国外来华专利技术】集成特征工程


[0001]所描述的实施例一般涉及处理数据流,特别涉及集成特征工程,其中自动化特征工程与实体集合创建集成,用于对流中的数据执行机器学习。

技术介绍

[0002]特征工程是在商业和其他企业通常分析的复杂数据中识别和提取预测特征的过程。特征是机器学习模型预测准确性的关键。因此,特征工程通常是数据分析项目是否成功的决定因素。特征工程通常是一个耗时的过程,通常需要大量数据才能实现良好的预测精度。通常情况下,用于创建特征的数据来自不同的来源,这需要在进行特征工程之前进行数据组合。然而,在用于组合数据的工具和用于创建特征的工具之间的数据移动存在体系结构挑战,导致创建特征的过程更加耗时。此外,体系挑战使数据分析工程师更难与特征创建过程进行交互。因此,当前的特征工程工具无法有效地满足企业的数据处理需求。

技术实现思路

[0003]通过一种方法、计算机实现的系统和计算机可读存储器来解决上述和其他问题。该方法的实施例包括从不同的数据源接收多个数据实体。该多个数据实体将用于训练模型,该模型用于基于新数据进行预测。该方法还包括基于该多个数据实体生成基元。每个基元被配置为应用于该多个数据实体中的变量以合成特征。该方法还包括从与用户相关联的客户设备接收时间参数。该时间参数指定时间值并且将用于从该多个数据实体合成特征。该方法还包括在生成基元并接收到时间参数之后,通过聚合该多个数据实体来生成实体集合。该方法还包括基于实体集合、基元和时间参数来合成多个特征。该方法还包括基于该多个特征来训练模型。
[0004]计算机实现的系统的实施例包括用于执行计算机程序指令的计算机处理器。该系统还包括非暂时性计算机可读存储器,其存储计算机程序指令,该可由计算机处理器执行,以执行操作。该操作包括从不同的数据源接收多个数据实体。该多个数据实体用于训练模型,该模型用于基于新数据进行预测。该操作还包括基于该多个数据实体生成基元。基元中的每一个基元被配置为应用于该多个数据实体中的变量以合成特征。该操作还包括从与用户相关联的客户设备接收时间参数。该时间参数指定时间值并用于从该多个数据实体合成特征。该操作还包括在生成基元并且接收到时间参数之后,通过聚合该多个数据实体来生成实体集合。该操作还包括基于实体集合、基元和时间参数来合成多个特征。该操作还包括基于该多个特征来训练模型。
[0005]非暂时性计算机可读存储器的实施例存储可执行的计算机程序指令。该指令可执行以执行操作。该操作包括从不同的数据源接收多个数据实体。该多个数据实体用于训练模型,该模型用于基于新数据进行预测。该操作还包括基于该多个数据实体生成基元。基元中的每一个基元被配置为应用于该多个数据实体中的变量以合成特征。该操作还包括从与用户相关联的客户设备接收时间参数。该时间参数指定时间值并用于从该多个数据实体合
成特征。该操作还包括在生成基元并且接收到时间参数之后,通过聚合该多个数据实体来生成实体集合。该操作还包括基于实体集合、基元和时间参数来合成多个特征。该操作还包括基于该多个特征来训练模型。
附图说明
[0006]图1是示出根据一个实施例的包括机器学习服务器的机器学习环境的框图。
[0007]图2是说明根据一个实施例的特征工程应用程序的框图。
[0008]图3示出了根据一个实施例的允许用户输入基元和时间参数的用户界面。
[0009]图4示出了根据一个实施例的用于实体集合创建的用户界面。
[0010]图5是示出根据一个实施例的通过使用从不同数据源接收的数据实体来合成特征的方法的流程图。
[0011]图6是示出根据实施例的用作图1的机器学习服务器的典型计算机系统的功能视图的高级框图。
[0012]附图描述了各种实施例,仅用于说明目的。本领域技术人员将从以下讨论中容易地认识到,在不偏离本文所述的实施例的原理的情况下,可以采用本文所示的结构和方法的替代实施例。不同附图中相同的参考数字和标号指示相同的元件。
具体实施方式
[0013]图1是示出根据一个实施例的包括机器学习服务器110的机器学习环境100的框图。环境100还包括经由网络130连接到机器学习服务器110的多个数据源120。尽管所示的环境100仅包含一个耦合到多个数据源120的机器学习服务器110,但是实施例可以具有多个机器学习服务器和单个数据源。
[0014]数据源120向数据分析系统110提供电子数据。数据源120可以是诸如硬盘驱动器(HDD)或固态驱动器(SSD)的存储设备、管理和提供对多个存储设备的访问的计算机、存储区域网络(SAN)、数据库或云存储系统。数据源120也可以是可以从另一个源检索数据的计算机系统。不同的数据源可能与不同的用户、不同的组织或同一组织内的不同部门相关联。数据源120可以远离机器学习服务器110并且经由网络130提供数据。此外,一些或所有数据源120可以直接耦合到数据分析系统,并且在不通过网络130传递数据的情况下提供数据。
[0015]由数据源120提供的数据可以被组织成数据记录(例如,行)。每个数据记录都包括一个或多个值。例如,由数据源120提供的数据记录可以包括一系列逗号分隔的值。该数据描述了使用数据分析系统110的与企业相关的信息。例如,来自数据源120的数据可以描述与网站上可访问的内容和/或与应用程序的基于计算机的交互(例如,点击跟踪数据)。企业可以在一个或多个不同的行业中,例如计算机技术和制造业。
[0016]机器学习服务器110是用于构建机器学习模型并提供可用于基于数据进行预测的机器学习模型的基于计算机的系统。示例预测包括应用程序监控、网络流量数据流监控、用户动作预测等。数据是经由网络130从多个数据源120收集、搜集或以其他方式访问的。机器学习服务器110可以实现用于访问、准备、混合和分析来自各种数据源120的数据的可扩展软件工具和硬件资源。机器学习服务器110可以是用于实现包括在此描述的特征工程和建模技术的机器学习功能的计算设备。
[0017]机器学习服务器110可以被配置为支持一个或多个软件应用程序,在图1中示出为特征工程应用程序150和训练应用程序160。特征工程应用程序150执行集成特征工程,其中自动化特征工程与实体集合创建集成。集成特征工程过程从来自单个数据实体生成特征工程算法和参数开始,然后通过组合单个数据实体来创建实体集合,并进一步从实体集合中的数据中提取预测变量,即特征。每个特征都是可能与预测(称为目标预测)相关的变量,该预测由相应的机器学习模型进行。
[0018]特征工程应用程序150基于单个数据实体来生成基元。在一个实施例中,特征工程应用程序150基于单个数据实体从基元池中选择基元。基元池由特征工程应用程序150来维护。基元定义了可以应用于数据集中的原始数据以创建具有相关值的一个或多个新特征的单独计算。选定的基元可以应用于不同类型的数据,并堆叠以创建新的计算,因为它们约束输入和输出数据类型。特征工程应用程序150允许用户(例如,数据分析工程师)提供时间值,该时间值可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:从不同的数据源接收多个数据实体,所述多个数据实体用于训练模型,所述模型用于基于新数据进行预测;基于所述多个数据实体生成基元,所述基元中的每一个基元被配置为应用于所述多个数据实体中的变量以合成特征;从与用户相关联的客户设备接收时间值,所述时间值用于从所述多个数据实体合成一个或多个基于时间的特征;在生成所述基元并且接收到所述时间值之后,通过聚合所述多个数据实体来生成实体集合;通过将所述基元和所述时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征;以及基于所述多个特征来训练所述模型。2.根据权利要求1所述的方法,其中,通过聚合所述多个数据实体来生成所述实体集合包括:从所述多个数据实体中识别数据实体的子集,每个子集包括共享公共变量的两个或更多个数据实体;通过聚合每个子集中的数据实体来生成中间数据实体;以及通过聚合所述中间数据实体来生成所述实体集合。3.根据权利要求2所述的方法,其中,通过聚合每个子集中的数据实体来生成所述中间数据实体包括:为所述子集中的每个数据实体确定主变量;以及基于所述子集中的数据实体的主变量,将所述子集中的数据实体识别为父实体,并且将所述父实体中的一个或多个其他数据实体中的每一个识别为子实体。4.根据权利要求2所述的方法,其中,从所述多个数据实体中识别数据实体的子集,每个子集包括共享公共变量的两个或更多个实体,包括:基于给定数据实体中的变量,从所述多个数据实体的给定数据实体生成两个新的数据实体,所述两个新的数据实体的每一个包括所述给定数据实体中变量的子集;以及从所述两个新的数据实体和排除所述给定数据实体的多个数据实体中识别数据实体的子集。5.根据权利要求4所述的方法,其中,基于所述给定实体中的变量,从所述多个实体中的所述给定实体生成所述两个新的实体包括:从所述给定实体中的变量识别第一主变量和第二主变量;将所述给定实体中的变量分类为第一组变量和第二组变量,所述第一组变量包括第一主变量和所述给定实体中与所述第一主变量相关的一个或多个其他变量,所述第二组变量包括第二主变量和所述给定实体中与所述第二主变量相关的一个或多个其他变量;使用所述第一组变量和所述第一组变量的值生成所述两个新的实体中的一个;以及使用所述第二组变量和第一组变量的值生成所述两个新的实体中的另一个。6.根据权利要求1所述的方法,其中,通过将所述基元和时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征,包括:
基于所述时间值来确定一个或多个截止时间;基于所述一个或多个截止时间从所述实体集合提取数据;以及从所提取的数据生成所述一个或多个基于时间的特征。7.根据权利要求1所述的方法,其中,通过将所述基元和所述时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征,包括:将所述基元应用于所述实体集合以生成特征池;以及迭代地评估所述特征池以从所述特征池中移除一些特征以获得所述多个特征,每个迭代包括:通过将所述实体集合的不同部分应用于所评估的特征来评估所述多个特征中的至少一些特征的有用性,以及基于所评估的特征的有用性移除所评估的特征中的一些特征以产生所述多个特征。8.一种系统,包括:计算机处理器,用于执行计算机程序指令;以及非暂时性计算机可读存储器,其存储计算机程序指令,所述计算机程序指令由所述计算机处理器可执行,以执行包括以下的操作:从不同的数据源接收多个数据实体,所述多个数据实体用于训练模型,所述模型用于基于新数据进行预测;基于所述多个数据实体生成基元,所述基元中的每一个基元被配置为应用于所述多个数据实体中的变量以合成特征;从与用户相关联的客户设备接收时间值,所述时间值用于从所述多个数据实体合成一个或多个基于时间的特征;在生成所述基元并且接收到所述时间值之后,通过聚合所述多个数据实体来生成实体集合;通过将所述基元和所述时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征;以及基于所述多个特征来训练所述模型。9.根据权利要求8所述的系统,其中,通过聚合所述多个数据实体来生成所述实体集合包括:从所述多个数据实体中识别数据实体的子集,每个子集包括共享公共变量的两个或更多个数据实体;通过聚合每个子集中的数据实体来生成中间数据实体;以及通过聚合所述中间数据实体来生成所述实体集合。10.根据权利要求9所述的系统,其中,通过聚合每个子集中的数据实体来生成所述中间数据实体包括:为所述子集中的每个数据实体确定主变量;以及基于所述子集中的数据实体的主变量,将所述子集中的数据实体识别为父实体,并且将所述父实体中的一个或多个其他数据实体中的每一个识别为子实体。11.根据权利要求9所述的系统,其中,从所述多个数...

【专利技术属性】
技术研发人员:S
申请(专利权)人:奥特瑞克斯股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1