【技术实现步骤摘要】
为训练计算模型提供未标记的训练数据
[0001]本公开的实施例涉及提供用于训练计算模型的未标记训练数据。有些涉及训练计算模型。
技术介绍
[0002]监督机器学习需要标记数据样本来训练计算模型。为复杂模型(诸如深度学习模型)收集标记数据很麻烦,尤其是在实验室之外。
[0003]自监督机器学习(SSL)分析未标记的输入数据以得出监督信号。然而,用于SSL的前置任务通常是手工制作的(例如,将图像旋转60度)或依赖于预训练数据,因为前置任务的挑选会对SSL性能具有深远的影响。此外,对于传感器信号(例如,加速度计、陀螺仪、心电图、皮肤电导等),很难手动定义可能引起学习鲁棒特征表示的前置任务。
技术实现思路
[0004]本公开的实施例以可以被描述为组监督学习(GSL)的方式改进了SSL,因为它利用了测量相同物体的多个传感器的能力用于准备训练样本。
[0005]根据各种但不一定是所有的实施例,提供了一种装置,包括被配置为以下的部件或用于以下的部件:
[0006]获得多个时间对齐的未标记数据的集合, ...
【技术保护点】
【技术特征摘要】
1.一种计算机实现的方法,包括:获得多个时间对齐的未标记数据的集合,其中所述集合与多个传感器中的不同传感器相对应;获得统计分离信息,所述统计分离信息指示所述集合中的个体集合的至少一部分与参考集合的至少一部分的统计分离;取决于指示所述多个集合中的第一集合的至少一部分与所述参考集合的所述至少一部分的第一统计相似性的所述统计分离信息,并且取决于所述多个集合中的所述第一集合的第一样本相对于参考时间是时间对齐的,将所述第一样本标记为正样本;取决于指示所述多个集合中的第二集合的至少一部分与所述参考集合的所述至少一部分的第二较低统计相似性的所述统计分离信息,并且还取决于所述多个集合中的所述第二集合中的第二样本相对于所述参考时间是时间未对齐的,将所述第二样本标记为负样本;以及提供所述正样本和所述负样本用于训练计算模型。2.根据权利要求1所述的计算机实现的方法,其中所述集合的所述时间对齐的未标记数据指示公共对象的时变上下文。3.根据权利要求1所述的计算机实现的方法,其中所述多个传感器包括具有相同传感模态的传感器。4.根据权利要求1所述的计算机实现的方法,其中所述时间对齐的未标记数据包括以下一项或多项:运动相关数据;压力相关数据;图像帧数据;音频数据;无线电信号数据;电力数据;或力相关数据。5.根据权利要求1所述的计算机实现的方法,其中将所述第二样本标记为所述负样本包括:基于所述第二较低统计相似性,将训练权重指派给所述第二集合或样本。6.根据权利要求1所述的计算机实现的方法,其中所述第一样本和所述第二样本在非重叠时间窗内。7.根据权利要求1所述的计算机实现的方法,还包括:基于包括权利要求1的所述正样本的一个或多个正样本、以及基于包括权利要求1的所述负样本的多个负样本来训练所述计算模型。8.根据权利要求7所述的计算机实现的方法,其中训练所述计算模型包括:执行损失函数以训练特征提取器,其中所述损失函数被配置为基于所述正样本的聚合、并且基于所述多个负样本的聚合、并且基于所述参考集合来确定损失值。9.根据权利要求7所述的计算机实现的方法,其中训练所述计算模型包括:基于以下一项或多项来提供另外的正样本和负样本:不同的参考时间;或不同的参考集合,并且包括:基于所述另外的正样本和负样本来迭代地确定所述损失值,直到收敛标准被满足为止。10.根据权利要求7所述的计算机实现的方法,其中训练所述计算模型包括:基于与所述参考集合相关联的标记数据集来训练分类器。11.根据权利要7所述的计算机实现的方法,还包括:获得所述未标记数据的集合,每个集合包括时间戳信息;以及基于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。