【技术实现步骤摘要】
【国外来华专利技术】集成特征工程
[0001]所描述的实施例一般涉及处理数据流,特别涉及集成特征工程,其中自动化特征工程与实体集合创建集成,用于对流中的数据执行机器学习。
技术介绍
[0002]特征工程是在商业和其他企业通常分析的复杂数据中识别和提取预测特征的过程。特征是机器学习模型预测准确性的关键。因此,特征工程通常是数据分析项目是否成功的决定因素。特征工程通常是一个耗时的过程,通常需要大量数据才能实现良好的预测精度。通常情况下,用于创建特征的数据来自不同的来源,这需要在进行特征工程之前进行数据组合。然而,在用于组合数据的工具和用于创建特征的工具之间的数据移动存在体系结构挑战,导致创建特征的过程更加耗时。此外,体系挑战使数据分析工程师更难与特征创建过程进行交互。因此,当前的特征工程工具无法有效地满足企业的数据处理需求。
技术实现思路
[0003]通过一种方法、计算机实现的系统和计算机可读存储器来解决上述和其他问题。该方法的实施例包括从不同的数据源接收多个数据实体。该多个数据实体将用于训练模型,该模型用于基于新数据进行预测。该方法还包括基于该多个数据实体生成基元。每个基元被配置为应用于该多个数据实体中的变量以合成特征。该方法还包括从与用户相关联的客户设备接收时间参数。该时间参数指定时间值并且将用于从该多个数据实体合成特征。该方法还包括在生成基元并接收到时间参数之后,通过聚合该多个数据实体来生成实体集合。该方法还包括基于实体集合、基元和时间参数来合成多个特征。该方法还包括基于该多个特征来训练模型。
[0004]计算 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:从不同的数据源接收多个数据实体,所述多个数据实体用于训练模型,所述模型用于基于新数据进行预测;基于所述多个数据实体生成基元,所述基元中的每一个基元被配置为应用于所述多个数据实体中的变量以合成特征;从与用户相关联的客户设备接收时间值,所述时间值用于从所述多个数据实体合成一个或多个基于时间的特征;在生成所述基元并且接收到所述时间值之后,通过聚合所述多个数据实体来生成实体集合;通过将所述基元和所述时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征;以及基于所述多个特征来训练所述模型。2.根据权利要求1所述的方法,其中,通过聚合所述多个数据实体来生成所述实体集合包括:从所述多个数据实体中识别数据实体的子集,每个子集包括共享公共变量的两个或更多个数据实体;通过聚合每个子集中的数据实体来生成中间数据实体;以及通过聚合所述中间数据实体来生成所述实体集合。3.根据权利要求2所述的方法,其中,通过聚合每个子集中的数据实体来生成所述中间数据实体包括:为所述子集中的每个数据实体确定主变量;以及基于所述子集中的数据实体的主变量,将所述子集中的数据实体识别为父实体,并且将所述父实体中的一个或多个其他数据实体中的每一个识别为子实体。4.根据权利要求2所述的方法,其中,从所述多个数据实体中识别数据实体的子集,每个子集包括共享公共变量的两个或更多个实体,包括:基于给定数据实体中的变量,从所述多个数据实体的给定数据实体生成两个新的数据实体,所述两个新的数据实体的每一个包括所述给定数据实体中变量的子集;以及从所述两个新的数据实体和排除所述给定数据实体的多个数据实体中识别数据实体的子集。5.根据权利要求4所述的方法,其中,基于所述给定实体中的变量,从所述多个实体中的所述给定实体生成所述两个新的实体包括:从所述给定实体中的变量识别第一主变量和第二主变量;将所述给定实体中的变量分类为第一组变量和第二组变量,所述第一组变量包括第一主变量和所述给定实体中与所述第一主变量相关的一个或多个其他变量,所述第二组变量包括第二主变量和所述给定实体中与所述第二主变量相关的一个或多个其他变量;使用所述第一组变量和所述第一组变量的值生成所述两个新的实体中的一个;以及使用所述第二组变量和第一组变量的值生成所述两个新的实体中的另一个。6.根据权利要求1所述的方法,其中,通过将所述基元和时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征,包括:
基于所述时间值来确定一个或多个截止时间;基于所述一个或多个截止时间从所述实体集合提取数据;以及从所提取的数据生成所述一个或多个基于时间的特征。7.根据权利要求1所述的方法,其中,通过将所述基元和所述时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征,包括:将所述基元应用于所述实体集合以生成特征池;以及迭代地评估所述特征池以从所述特征池中移除一些特征以获得所述多个特征,每个迭代包括:通过将所述实体集合的不同部分应用于所评估的特征来评估所述多个特征中的至少一些特征的有用性,以及基于所评估的特征的有用性移除所评估的特征中的一些特征以产生所述多个特征。8.一种系统,包括:计算机处理器,用于执行计算机程序指令;以及非暂时性计算机可读存储器,其存储计算机程序指令,所述计算机程序指令由所述计算机处理器可执行,以执行包括以下的操作:从不同的数据源接收多个数据实体,所述多个数据实体用于训练模型,所述模型用于基于新数据进行预测;基于所述多个数据实体生成基元,所述基元中的每一个基元被配置为应用于所述多个数据实体中的变量以合成特征;从与用户相关联的客户设备接收时间值,所述时间值用于从所述多个数据实体合成一个或多个基于时间的特征;在生成所述基元并且接收到所述时间值之后,通过聚合所述多个数据实体来生成实体集合;通过将所述基元和所述时间值应用于所述实体集合来合成多个特征,所述多个特征包括一个或多个基于时间的特征;以及基于所述多个特征来训练所述模型。9.根据权利要求8所述的系统,其中,通过聚合所述多个数据实体来生成所述实体集合包括:从所述多个数据实体中识别数据实体的子集,每个子集包括共享公共变量的两个或更多个数据实体;通过聚合每个子集中的数据实体来生成中间数据实体;以及通过聚合所述中间数据实体来生成所述实体集合。10.根据权利要求9所述的系统,其中,通过聚合每个子集中的数据实体来生成所述中间数据实体包括:为所述子集中的每个数据实体确定主变量;以及基于所述子集中的数据实体的主变量,将所述子集中的数据实体识别为父实体,并且将所述父实体中的一个或多个其他数据实体中的每一个识别为子实体。11.根据权利要求9所述的系统,其中,从所述多个数...
【专利技术属性】
技术研发人员:S,
申请(专利权)人:奥特瑞克斯股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。