用于缩减数据集的数据缩减制造技术

技术编号:19075817 阅读:7 留言:0更新日期:2018-09-29 17:51
提供了用于基于来自变量集合的变量子集来缩减数据集的数据缩减设备(150)和方法。所述多个变量的实例包括用于预测另外的类型的数据的实例的信息。所述设备包括第一数据集单元(102)、第二数据集单元(104)、搜索单元(110),以及数据缩减单元(152)。所述第一数据集单元获得包含数据的实例的元组的第一集合。所述第二数据集单元获得包括所述另外的类型的数据的实例的第二集合。所述第二集合的每个实例对应于所述第一集合的所述元组中的一个。所述搜索单元获得表示优化函数的至少局部最优值的缩减的变量集合,所述优化函数是缩减的第一集合与所述第二集合之间的第一互信息值和基于所述缩减的变量集合中的变量数量的惩罚值的组合。

【技术实现步骤摘要】
【国外来华专利技术】用于缩减数据集的数据缩减
本专利技术涉及一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备,并且其中,变量表示基于传感器的测量结果的不同类型的数据,变量的实例包括用于预测另外的类型的数据的实例的信息,并且另外的类型的数据与物理实体的特性有关。本专利技术还涉及一种基于来自包括多个变量的变量集合的变量子集来缩减数据集的方法,以及一种用于从包括多个变量的变量集合中选择变量子集的计算机程序产品。
技术介绍
在机器学习技术中,历史数据通常用于训练机器以使得机器能够基于最近的数据集来预测事件。在很多情况下,大量的数据是可用的并且用于尽可能好地训练机器。然而,使用如此长的培训历史可能需要相当多的数据存储和处理能力。而且,一些其他预测技术可以直接使用确定的事件和测量值的数据历史。然后,可以使用可用的整个存储的数据历史,并且当必须基于最近的数据集进行预测时,处理整个数据历史以找到最近的数据与数据历史之间的相似性——这需要相当多的处理能力。有必要缩减要存储的历史数据的量,同时保持其预测益处。一种方法是丢弃与预测事件不太相关的变量数据(例如,特定传感器的测量结果)。这在传统的机器学习中被称为特征选择。在传统的机器学习中有很多方法来完成特征选择。一些范例如下:主成分分析(PCA)、线性判别分析(LDA)、随机森林,以及最小绝对收缩与选择算子(LASSO)。前两种方法的共同之处在于它们着重于方差作为感兴趣变量。LASSO着重于最小化平方误差的加和,这与方差相似。随机森林研究随机置换数据的性能损失。已经表明:上述特征选择解决方案是次优的,并且仍然存在改进的空间,尤其是当人们想要选择将用于预测特定事件的特定特征/变量的集合时。US2007/0122041A1公开了一种计算机实施的方法,其使稀疏线性判别分析的基数受限组合优化问题的候选解最大化,并且实施上面讨论的PCA、LDA和派生方法,这些方法都基于使用相关性测量使得剩余数据集的方差最大化。由于方差是二阶统计量,因此不考虑变量的全部信息内容。上面已经提到预测技术用于预测“事件”。必须指出,必须广义地理解术语“事件”。“事件”可以表示物理实体的特性,例如,“机器的部件将要分解或不分解”,或“工厂的能量消耗将过高或不过高”。这些范例涉及二元预测:“某事物是否真实”。然而,上面讨论的预测技术不限于二元特性,并且还可以预测针对在较高基数系统中具有值的特性的特性,例如,“该城市的能量消耗将是低的、中等的,还是高的”。上面讨论的预测技术也可以应用于基于历史数据获得标量值的回归用例。上述解读也适用于本文的其余部分。
技术实现思路
本专利技术的目的是提供改进的设备和/或方法,所述设备和方法用于在必须基于相关变量的(更为近期的)实例来预测另外的类型的数据的实例时必须保留或使用的较大变量集合的相关变量的子集来缩减数据集。在该背景中,“相关”意指:基于选定的相关变量的(更为近期的)实例,可以可靠地预测另外的类型的数据的实例。本专利技术由独立权利要求来定义。从属权利要求定义有利的实施例。为此目的,根据本专利技术的一个方面,提供了一种用于基于变量集合的变量子集来缩减数据集的数据缩减设备。所述多个变量表示不同类型的数据。所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息。所述另外的类型的数据与物理实体的特性有关。所述数据缩减设备包括:第一数据集单元、第二数据集单元、搜索单元,以及数据缩减单元。所述第一数据集单元获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例。所述第二数据集单元获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个。所述搜索单元获得作为所述变量集合的子集的缩减的变量集合。所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数。所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组。所述缩减的元组仅包括所述缩减的变量集合的变量的实例。所述优化函数基于(例如导出自)所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合。所述数据缩减单元根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例。所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。为此目的,根据本专利技术的另一方面,提供了一种基于来自变量集合的变量子集来缩减数据集的方法。所述多个变量表示不同类型的数据。所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息。所述另外的类型的数据与物理实体的特性有关。所述方法包括:i)获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合的每个变量的实例;ii)获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个;iii)搜索作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合;iv)根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。用于基于来自变量集合的变量子集来缩减数据集合的数据缩减设备和方法的特征获得了已经被选择为使得缩减的第一数据集与第二数据集之间的互信息仍然比较高的变量子集。因此,缩减的第一集合为可靠地预测另外的类型的数据的实例提供了良好的基础。此外,由于优化函数考虑了在变量子集具有更多变量的情况下惩罚值会增大,因此变量子集很可能小于变量集合,并且因此要存储、使用或保持的(历史)数据可能会减少。通过使用缩减的变量集合来缩减包括元组(类似于第一数据集的元组)的数据集,缩减的数据集相对于另外的类型的数据的实例仍然包括相当多的互信息。因此,缩减的数据集能够很好地用于预测另外的类型的数据的(未知)实例。应当注意,优化函数基于第一互信息值和惩罚值。取决于确切的优化函数,在搜索缩减的变量集合时,必须找到至少局部最小值或至少局部最大值。在这种背景下,尤其重要的是要注意:如果缩减的第一数据集与第二数据集之间的互信息值增大,则在给定缩减的第一数据集的情况下第二数据集之间的条件熵值减小。例如,优化函数是第一互信息值减去惩罚值的组合。在这种情况下,在搜索缩减的变量集合时,必须为优化函数找到至少局部最大值。在另一范例中,优化函数是在给定缩减的第一数据集的情况下针对第二数据集的第一条件熵加上惩罚值的组合。在这个另一范例中,在搜索缩减的变量集合时,必须为优化函数找到至少局部最小值。下文讨论所述方法的实施例。数据缩减设备具本文档来自技高网
...

【技术保护点】
1.一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备(150),所述多个变量表示不同类型的数据,所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述数据缩减设备包括:第一数据集单元(102),其用于获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例,第二数据集单元(104),其用于获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,搜索单元(110),其用于获得作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,并且所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,以及数据缩减单元(152),其用于根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。...

【技术特征摘要】
【国外来华专利技术】2016.01.28 EP 16153051.41.一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备(150),所述多个变量表示不同类型的数据,所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述数据缩减设备包括:第一数据集单元(102),其用于获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例,第二数据集单元(104),其用于获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,搜索单元(110),其用于获得作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,并且所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,以及数据缩减单元(152),其用于根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。2.一种基于来自包括多个变量的变量集合的变量子集来缩减数据集的方法(200),所述多个变量表示不同类型的数据,所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述方法包括:获得(202)包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合的每个变量的实例,获得(204)包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,搜索(206)作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,并且根据包括数据的实例的元组的数据集来生成(222)缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。3.根据权利要求2所述的基于变量子集来缩减数据集的方法(200),其中,所述缩减的第一数据集与所述第二数据集之间的所述第一互信息值是通过确定(212)所述第二数据集与聚类数据之间的第二互信息值来估计的,其中,所述聚类数据包括根据所述缩减的第一数据集导出的聚类。4.根据权利要求3所述的基于变量子集来缩减数据集的方法(200),其中,所述聚类是根据所述缩减的第一数据集和所述第二数据集的组合导出的。5.根据权利要求4所述的基于变量子集来缩减数据集的方法(200),其中,所述聚类表示数据的元组,所述数据的元组是所述缩减的第一数据集的特定元组的组合,所述特定元组被扩展有根据来自所述第二数据集中的对应于所述缩减的第一数据集的所述特定元组的实例导出的值。6.根据权利要求5...

【专利技术属性】
技术研发人员:I·C·M·福林森伯格M·奥恩
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1