当前位置: 首页 > 专利查询>罗伯特专利>正文

用于训练神经网络的方法及设备技术

技术编号:39297043 阅读:12 留言:0更新日期:2023-11-07 11:05
本发明专利技术涉及用于训练机器学习系统的计算机实现的方法,其中机器学习系统被训练为将源域的图像传输到目标域,其中该方法包括以下步骤:基于源域的多个源图像确定多个源补丁和基于目标域的多个目标图像确定多个目标补丁,其中向每个源补丁和每个目标补丁分配逐像素元信息;确定多个元组,其中每个元组包含多个源补丁中的一个源补丁和多个目标补丁中的至少一个目标补丁,其中所述至少一个目标补丁根据相似性度量表征源补丁的k个最近邻之一,其中k是该方法的超参数,并且相似性度量基于源补丁的逐像素元信息和目标补丁的逐像素元信息表征源补丁和目标补丁之间的相似性;基于元组的源补丁和元组的目标补丁来训练机器学习系统。源补丁和元组的目标补丁来训练机器学习系统。源补丁和元组的目标补丁来训练机器学习系统。

【技术实现步骤摘要】
用于训练神经网络的方法及设备


[0001]本专利技术涉及一种用于训练机器学习系统的方法、一种用于训练对象检测器的方法、一种用于运行控制系统的方法、一种计算机程序和一种机器可读存储介质。

技术介绍

[0002]未在先公开的DE 10 2022 201 679.3公开了一种训练机器学习系统的方法,该方法包括以下步骤:
[0003]·
提供来自源域的源图像和来自目标域的目标图像;
[0004]·
借助于所述机器学习系统的第一生成器基于所述源图像确定第一生成图像,并且借助于所述机器学习系统的第二生成器基于所述第一生成图像确定第一重建;
[0005]·
借助于所述第二生成器基于所述目标图像确定第二生成图像,并且借助于所述第一生成器基于所述第二生成图像确定第二重建;
[0006]·
确定第一损失值,其中所述第一损失值表征所述源图像和所述第一重建的第一差异,其中根据第一注意力图对所述第一差异加权,并且确定第二损失值,其中所述第二损失值表征所述目标图像与所述第二重建的第二差异,其中根据第二注意力图对所述第二差异加权;
[0007]·
通过基于所述第一损失值和/或所述第二损失值训练所述第一生成器和/或所述第二生成器来训练所述机器学习系统。
[0008]从Richter等人的“Enhancing photorealism enhancement”,2021,https://arxiv.org/pdf/2105.04619v1.pdf公知了一种提高合成图像的逼真度的方法。在该方法中图像由卷积网络改善,所述卷积网络利用由传统的渲染管道产生的中间表示。该网络通过对抗性训练进行训练,所述对抗性训练在多个感知层面上提供强大的监视。在这种情况下提出了一种在训练期间选择图像场的新策略。
[0009]本专利技术的优点
[0010]许多现代技术系统使用机器学习方法来处理从技术系统环境中记录的数据。这些方法典型地能够关于这些数据建立预测,更确切地说基于在训练数据集的基础上获得的统计知识建立预测。
[0011]如果机器学习系统在推理时处理的数据统计分布与用于训练机器学习系统的数据统计分布不同,则机器学习系统典型地会遇到问题。这个问题在机器学习领域也称为域转移(英语:domain shift)。
[0012]技术系统的许多示例都受到或多或少自然或不可避免的域转移。例如在至少部分自主车辆的领域,产生了应当定期观察道路上的新车辆的状况。对于至少部分自主车辆的传感器(例如LIDAR传感器、相机传感器或雷达传感器)而言,这样的车辆典型地还导致在潜在训练集中未知的测量,因为根据定义,车辆是新的并且因此由这些车辆记录的传感器测量也是新的。
[0013]在更换产品的两代产品时,可能会产生其他形式的域转移。例如,存在包括机器学
习系统的相机传感器,以便针对例如对象位置来评估由相机记录的环境(即环境的相机图像)。为了训练这样的机器学习系统,通常需要大量训练数据。如果现在相机的产品换代,例如如果使用了新的图像传感器(英语:image),则机器学习系统典型地在不进行适配的情况下无法再达到与上一代相机相同的预测精度。因此,产品换代意味着为机器学习系统确定新的训练数据。虽然典型地应当成本有利地获取纯数据本身,但训练所需的注释更难获取且成本更高,因为典型地必须由人类专家来创建注释。
[0014]在图像数据的情况下,典型地将机器学习方法用于将源域适配于目标域。这些方法的共同点是相应方法所需的模型典型地非常大,并且因此在实际意义上变得难以管理。因此,已知的方法不是将每个完整的图像从源域传输到目标域,而是传输图像的每个区段(英语:patches)。然而,在此情况下产生了众所周知的缺点,即从源域和目标域中随机选择补丁来训练用于域传输的机器学习方法可能导致机器学习方法的准确性不足。这是因为随机选择的补丁可能具有过于不同的语义内容,以至于域传输没有意义。
[0015]有利地,具有独立权利要求1的特征的方法允许训练机器学习系统,该机器学习系统被构造为将源域适应于目标域(英语:domain adaption,域适应),其中训练数据被选择为使得来自源域的补丁的内容和来自目标域的补丁的内容。

技术实现思路

[0016]在第一方面,本专利技术涉及一种用于训练机器学习系统的计算机实现的方法,其中所述机器学习系统被训练为将源域的图像传输到目标域,其中所述方法包括以下步骤:
[0017]·
基于源域的多个源图像确定多个源补丁和基于目标域的多个目标图像确定多个目标补丁,其中向每个源补丁和每个目标补丁分配逐像素元信息;
[0018]·
确定多个元组,其中每个元组包含所述多个源补丁中的一个源补丁和所述多个目标补丁中的至少一个目标补丁,其中所述至少一个目标补丁根据相似性度量表征所述源补丁的k个最近邻之一,其中k是所述方法的超参数,并且所述相似性度量基于源补丁的逐像素元信息和目标补丁的逐像素元信息表征所述源补丁和所述目标补丁之间的相似性;
[0019]·
基于所述元组的源补丁和所述元组的目标补丁来训练所述机器学习系统。
[0020]补丁可以理解为图像的区段,并且因此它本身就是图像。来自源域中图像的补丁称为源补丁,而来自目标域中图像的补丁称为目标补丁。
[0021]机器学习系统可以理解为其被构造为接受图像作为输入并基于该输入确定另外的图像作为输出。借助于该方法可以训练机器学习系统,使得该机器学习系统能够将源域的图像转换为目标域的图像。换句话说,所述机器学习系统被构造为产生图像,即基于源图像产生目标图像。
[0022]域可以理解为可以生成图像的概率分布。因此,该方法也可以理解为将图像从一种概率分布(源域)变换为另外的一种概率分布(目标域)。
[0023]图像特别是可以理解为传感器记录或者也可以理解为传感器的测量。特别地,相机传感器、LIDAR传感器、雷达传感器、超声传感器或热成像相机可以用作可以将图像确定为测量的传感器。然而,也可以合成地生成图像,例如基于计算机仿真,例如通过渲染虚拟世界。对于这样的合成图像,通常可以非常简单地自动确定注释,其中然后可以借助于该方法从合成图像生成另外的图像,其外观等同于例如相机传感器的图像。
[0024]在该方法中,向用于训练的每个源图像和每个目标图像分配逐像素元信息。换句话说,每个像素都注释有附加信息。基于这些信息可以评估相似性度量,从而确定源图像的补丁与目标图像的补丁之间的相似性。然后为了训练可以选择补丁,使得通过源域和目标域中的相似补丁让机器学习系统面对补丁的相似语义内容。从而在训练期间防止源补丁与目标补丁之间的随机相关性产生如下负面影响:即机器学习系统学习了源域与目标域之间的错误关系。由此提高了机器学习系统从源域到目标域的映射能力。
[0025]在训练之后,可以将所述机器学习系统应用于整个图像,或者为了传输将源图像细分为补丁并单独传输每个补丁,例如根据滑动窗口(英语:sli本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练机器学习系统(70)的计算机实现的方法(700),其中所述机器学习系统(70)被训练为将源域的图像传输到目标域,其中所述方法包括以下步骤:
·
基于源域的多个源图像(A
11
)确定多个源补丁(A
21
)和基于目标域的多个目标图像(A
12
)确定多个目标补丁(A
22
),其中向每个源补丁(A
21
)和每个目标补丁(A
22
)分配逐像素元信息(B
41
,B
42
);
·
确定多个元组(B
21
,B
62
),其中每个元组包含所述多个源补丁(A
21
)中的一个源补丁(B
21
)和所述多个目标补丁(A
22
)中的至少一个目标补丁(B
62
),其中所述至少一个目标补丁(B
62
)根据相似性度量表征所述源补丁(B
21
)的k个最近邻之一,其中k是所述方法的超参数,并且所述相似性度量基于源补丁的逐像素元信息和目标补丁的逐像素元信息表征所述源补丁(B
21
)和所述目标补丁(B
62
)之间的相似性;
·
基于所述元组的源补丁和所述元组的目标补丁来训练所述机器学习系统。2.根据权利要求1所述的方法(700),其中所述逐像素元信息(B
41
,B
42
)表征源补丁(A
21
)或目标补丁(A
22
)的语义分割,和/或其中所述逐像素元信息(B
41
,B
42
)表征源补丁(A
21
)或目标补丁(A
22
)的实例分割。3.根据权利要求2所述的方法(700),其中源补丁(A
21
)与目标补丁(A
22
)之间的相似性表征所述源补丁(A
21
)的语义分割和所述目标补丁(A
22
)的语义分割的相同类别的比例,和/或源补丁(A
21
)与目标补丁(A
22
)之间的相似性表征所述源补丁(A
21
)的实例分割和所述目标补丁(A
22
)的实例分割的相同类别的比例。4.根据权利要求1至3中任一项所述的方法(700),其中所述逐像素元信息(B
41
,B
42
)替代地或附加地表征所述源补丁(A
21
)的像素的深度信息或所述目标补丁(A
22
)的像素的深度信息。5.根据权利要求4所述的方法(700),其中源补丁(A
21
)与目标补丁(A
22
)之间的相似性表征所述源补丁(A
21
)的深度信息与所述目标补丁(A
22
)的深度信息的偏差,特别是均方偏差。6.根据权利要求1至5中任一项所述的方法(700),其中所述相似性附加地表征所述源补丁(A
21
)与所述目标补丁(A
22
)之间的感知特征相似性。7.根据权利要...

【专利技术属性】
技术研发人员:M
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1