用于机器学习模型的具有对比损失的专家引导半监督的系统和方法技术方案

技术编号:40500999 阅读:28 留言:0更新日期:2024-02-26 19:28
一种方法包括响应于不满足至少一个收敛标准:接收包括多个标记样本的标记数据集;接收包括多个未标记样本的未标记数据集;标识多个标记‑未标记样本对;对每个标记样本和每个对应的未标记样本应用数据扩充变换;使用机器学习模型为每至少一个标记‑未标记样本对计算潜在表示空间;使用机器学习模型为每个标记‑未标记样本对的每个未标记样本生成标记预测;基于相应的潜在表示空间和相应的标记预测,计算多个标记‑未标记样本对中的每个标记‑未标记样本对的损失函数;将优化函数应用于每个相应的损失函数;以及响应于应用优化函数,更新多个标记‑未标记样本对中的每个标记‑未标记样本对的权重值。

【技术实现步骤摘要】

本公开涉及具有人工智能能力的计算机系统,包括神经网络。在实施例中,本公开涉及使用具有标记传播的训练数据集来使用专家引导的、半监督的机器学习。


技术介绍

1、在用于训练机器学习模型的数据开发中,数据收集和标记是费力、昂贵且耗时的风险项目,其可能代表大多数当前机器学习流水线中的主要瓶颈。在许多真实世界应用中,标记样本的数量相对有限,而未标记样本相对不充分并且通常需要有限的资源来收集。通常,为了使用这种未标记样本,通常使用手动操作来应用标记,这往往会增加准备标记训练数据的成本和时间消耗。


技术实现思路

1、所公开的实施例的一个方面包括一种用于机器学习模型的半监督训练的方法。该方法包括:响应于不满足至少一个收敛标准:接收包括多个标记样本的标记数据集;接收包括多个未标记样本的未标记数据集;标识多个标记-未标记样本对,每个标记-未标记样本对包括标记样本中的相应的标记样本和多个未标记样本中的对应的未标记样本;对多个标记-未标记样本对中的每个标记-未标记样本对的每个标记样本和每个对应的未标记样本应用数据扩充变换;使用机器学习本文档来自技高网...

【技术保护点】

1.一种用于机器学习模型的半监督训练的方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述机器学习模型包括特征提取器和一个或多个预测器网络。

3.根据权利要求1所述的方法,还包括使用具有与预测标记一起传播的样本的未标记数据集和标记数据集来训练所述机器学习模型。

4.根据权利要求1所述的方法,其中标识多个标记-未标记样本对包括使用与标记数据集和未标记数据集相关联的相似性图来标识多个标记-未标记样本对。

5.根据权利要求4所述的方法,其中所述相似性图至少基于专家导出的相似性图来生成。

6.根据权利要求1所述的方法,其中所述损...

【技术特征摘要】

1.一种用于机器学习模型的半监督训练的方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述机器学习模型包括特征提取器和一个或多个预测器网络。

3.根据权利要求1所述的方法,还包括使用具有与预测标记一起传播的样本的未标记数据集和标记数据集来训练所述机器学习模型。

4.根据权利要求1所述的方法,其中标识多个标记-未标记样本对包括使用与标记数据集和未标记数据集相关联的相似性图来标识多个标记-未标记样本对。

5.根据权利要求4所述的方法,其中所述相似性图至少基于专家导出的相似性图来生成。

6.根据权利要求1所述的方法,其中所述损失函数包括每个标记预测的均方误差和对比损失的组合。

7.根据权利要求1所述的方法,其中所述优化函数包括随机梯度下降优化函数。

8.根据权利要求1所述的方法,其中所述机器学习模型被配置成执行至少一个分类任务。

9.根据权利要求1所述的方法,其中所述机器学习模型被配置成执行至少一个回归任务。

10.一种用于机器学习模型的半监督训练的系统,所述系统包括:

11.根据权利要求10所述的系统,其中所述机器学习模型包括特征提取器和一个或...

【专利技术属性】
技术研发人员:A·亨克B·K·索伦F·舍恩F·C·孔德萨F·郎M·库卡R·法托尼T·阿尔贝尔
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1