【技术实现步骤摘要】
【国外来华专利技术】用于缩减数据集的数据缩减
本专利技术涉及一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备,并且其中,变量表示基于传感器的测量结果的不同类型的数据,变量的实例包括用于预测另外的类型的数据的实例的信息,并且另外的类型的数据与物理实体的特性有关。本专利技术还涉及一种基于来自包括多个变量的变量集合的变量子集来缩减数据集的方法,以及一种用于从包括多个变量的变量集合中选择变量子集的计算机程序产品。
技术介绍
在机器学习技术中,历史数据通常用于训练机器以使得机器能够基于最近的数据集来预测事件。在很多情况下,大量的数据是可用的并且用于尽可能好地训练机器。然而,使用如此长的培训历史可能需要相当多的数据存储和处理能力。而且,一些其他预测技术可以直接使用确定的事件和测量值的数据历史。然后,可以使用可用的整个存储的数据历史,并且当必须基于最近的数据集进行预测时,处理整个数据历史以找到最近的数据与数据历史之间的相似性——这需要相当多的处理能力。有必要缩减要存储的历史数据的量,同时保持其预测益处。一种方法是丢弃与预测事件不太相关的变量数据(例如,特定传感器的测量结果)。这在传统的机器学习中被称为特征选择。在传统的机器学习中有很多方法来完成特征选择。一些范例如下:主成分分析(PCA)、线性判别分析(LDA)、随机森林,以及最小绝对收缩与选择算子(LASSO)。前两种方法的共同之处在于它们着重于方差作为感兴趣变量。LASSO着重于最小化平方误差的加和,这与方差相似。随机森林研究随机置换数据的性能损失。已经表明:上述特征选择解决方案是次优的,并且仍然存在改进的空间 ...
【技术保护点】
1.一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备(150),所述多个变量表示不同类型的数据,所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述数据缩减设备包括:第一数据集单元(102),其用于获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例,第二数据集单元(104),其用于获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,搜索单元(110),其用于获得作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,并且所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,以及数据缩减 ...
【技术特征摘要】
【国外来华专利技术】2016.01.28 EP 16153051.41.一种用于基于来自包括多个变量的变量集合的变量子集来缩减数据集的数据缩减设备(150),所述多个变量表示不同类型的数据,所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述数据缩减设备包括:第一数据集单元(102),其用于获得包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合中的每个变量的实例,第二数据集单元(104),其用于获得包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,搜索单元(110),其用于获得作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,并且所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,以及数据缩减单元(152),其用于根据包括数据的实例的元组的数据集来生成缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。2.一种基于来自包括多个变量的变量集合的变量子集来缩减数据集的方法(200),所述多个变量表示不同类型的数据,所述多个变量的实例基于传感器数据并且包括用于预测另外的类型的数据的实例的信息,所述另外的类型的数据与物理实体的特性有关,所述方法包括:获得(202)包括数据的实例的元组的第一数据集,其中,每个元组包括所述变量集合的每个变量的实例,获得(204)包括所述另外的类型的数据的实例的第二数据集,其中,所述第二数据集的每个实例对应于所述第一数据集的所述元组中的一个,搜索(206)作为所述变量集合的子集的缩减的变量集合,所述缩减的变量集合表示优化函数的至少局部最优值,所述优化函数是缩减的第一数据集、所述第二数据集和所述缩减的变量集合的函数,所述缩减的第一数据集包括从所述第一数据集的所述元组获得的缩减的元组,并且所述缩减的元组仅包括所述缩减的变量集合的变量的实例,所述优化函数基于所述缩减的第一数据集与所述第二数据集之间的第一互信息值和随着所述缩减的变量集合中的变量的数量增大而增大的惩罚值的组合,并且根据包括数据的实例的元组的数据集来生成(222)缩减的数据集,其中,每个元组包括所述变量集合中的每个变量的实例,所述缩减的数据集包括存在于所述缩减的变量集合中的变量的数据的实例。3.根据权利要求2所述的基于变量子集来缩减数据集的方法(200),其中,所述缩减的第一数据集与所述第二数据集之间的所述第一互信息值是通过确定(212)所述第二数据集与聚类数据之间的第二互信息值来估计的,其中,所述聚类数据包括根据所述缩减的第一数据集导出的聚类。4.根据权利要求3所述的基于变量子集来缩减数据集的方法(200),其中,所述聚类是根据所述缩减的第一数据集和所述第二数据集的组合导出的。5.根据权利要求4所述的基于变量子集来缩减数据集的方法(200),其中,所述聚类表示数据的元组,所述数据的元组是所述缩减的第一数据集的特定元组的组合,所述特定元组被扩展有根据来自所述第二数据集中的对应于所述缩减的第一数据集的所述特定元组的实例导出的值。6.根据权利要求5...
【专利技术属性】
技术研发人员:I·C·M·福林森伯格,M·奥恩,
申请(专利权)人:皇家飞利浦有限公司,
类型:发明
国别省市:荷兰,NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。