当前位置: 首页 > 专利查询>罗伯特专利>正文

用于产生逼真图像的生成器的训练方法技术

技术编号:37297675 阅读:8 留言:0更新日期:2023-04-21 22:44
用于从语义图(2、5a)中训练图像(3)的生成器(1)的方法(100),所述语义图向所述图像(3)的每个像素分配该像素所属对象的语义含义(4),其中

【技术实现步骤摘要】
【国外来华专利技术】用于产生逼真图像的生成器的训练方法


[0001]本专利技术涉及对逼真图像的生成器的训练,所述逼真图像又可用于训练图像分类器。

技术介绍

[0002]人类驾驶员在道路交通中驾驶车辆所需的信息中,大约90%是视觉信息。因此,对于车辆的至少部分自动化驾驶来说,重要的是正确地评估在监视车辆环境期间所记录的图像数据的内容,而不管是什么模态的图像数据。对于驾驶任务特别重要的是对图像数据进行分类,以确定所述图像数据中包含哪些交通相关的对象,例如其他交通参与者、车道标记、障碍物和交通标志。
[0003]对应的图像分类器必须使用在大量交通状况下记录的训练图像加以训练。训练图像的获取相对困难且昂贵。现实中很少发生的交通状况在具有训练图像的数据集中可能在数量上未能得到充分代表,从而图像分类器无法最佳地学习如何正确地对这些交通状况进行分类。此外,需要大量手动工作来使用相关联的目标类别分配(“地面实况”)“标记”训练图像或其像素。
[0004]因此,还使用了利用基于生成对抗网络(GAN)的生成器产生的综合产生的训练数据。这种雷达数据的生成器由DE 10 2018 204 494 B3已知。

技术实现思路

[0005]在本专利技术的范围中开发了一种用于训练图像的生成器的方法。
[0006]术语“图像”不限于静态相机图像,而是例如还包括视频图像、雷达图像、激光雷达图像和超声图像。
[0007]待产生的图像可以是逼真的,特别是例如在预给定的应用方面。在此情况下,“逼真”可以特别是意味着可以按照与用物理传感器记录的图像相同的方式将图像用于下游处理,例如在训练图像分类器时。逼真产生的图像可以特别是例如用于丰富用传感器记录并且然后为图像分类器“标记”的真实训练图像的存储库。因此,为了更好的可读性,待产生的图像在下文中称为“逼真图像”或“逼真产生的图像”。
[0008]所述生成器从语义图中产生逼真图像。该语义图向待产生的逼真图像的每个像素分配该像素所属对象的语义含义。因此,不是产生任何随机的逼真图像,而是产生反映语义图中预给定状况的逼真图像。从而例如所述语义图可以表示具有不同车道、车道边界、交通标志、交通参与者和另外的对象的交通状况。
[0009]针对该方法提供真实训练图像和相关联的语义训练图,所述语义训练图向相应训练图像的每个像素分配语义含义。因此,对于每个真实训练图像都存在语义训练图。相反,对于每个语义训练图都存在至少一个真实训练图像,因为例如可能已经使用不同曝光或其他成像参数记录了语义相同的状况。例如可以通过对真实训练图像进行手动标记来获得语义训练图。
[0010]使用待训练的生成器,从至少一个语义训练图中产生逼真图像。针对相同的至少一个语义训练图确定至少一个真实训练图像。为了训练生成器,使用鉴别器,所述鉴别器被构造为将生成器所产生的逼真图像与通过语义训练图预给定的场景的真实图像区分开来。
[0011]从生成器所产生的至少一个逼真图像和针对相同语义训练图确定的至少一个真实训练图像中产生混合图像。在该混合图像中,第一真实像素子集被生成器所产生的逼真图像的分别对应的像素值占据。其余的真实像素子集被真实训练图像的分别对应的像素值占据。因此,混合图像的每个像素都被生成器所产生的逼真图像的对应像素值或真实训练图像的对应像素值占据。
[0012]在此,特别是例如混合图像的像素的以下连续区域可以统一被生成器所产生的逼真图像的对应像素值或统一被真实训练图像的对应像素值占据,所述连续区域由所述语义训练图分配了相同的含义。因此,所述混合图像于是可以是例如一方面由生成器所产生的逼真图像中的对象表示和另一方面真实训练图像中的对象表示的“拼贴”。
[0013]将生成器所产生的逼真图像、至少一个真实训练图像以及至少一个混合图像输送到所述鉴别器。对表征生成器行为的生成器参数进行优化,目标是将生成器所产生的逼真图像由鉴别器错误分类为真实图像。
[0014]同时或交替地,对表征鉴别器行为的鉴别器参数进行优化,目标是在区分逼真产生的图像和真实图像时提高准确性。因此,所述鉴别器被训练为将逼真产生的图像分类为逼真产生的图像并且将真实训练图像分类为真实训练图像。
[0015]混合图像在该训练中应当扮演什么角色,即鉴别器应当输出哪个类别分配来响应混合图像,是该训练的可调整的自由度。这里存在多个动机良好的可能性。
[0016]例如可能期望的是,所述鉴别器将主要包含从逼真产生的图像中提取的像素和/或对象的混合图像分类为逼真产生的图像。同样例如可能期望的是,所述鉴别器将主要包含从真实训练图像中提取的像素和/或对象的混合图像分类为真实图像。中间还可以任意分级。因此可以将鉴别器的参数优化为,使得所述鉴别器响应于所述混合图像输出分别期望的目标分配。
[0017]在此还可以任意分级。例如,可以对鉴别器参数附加地进行优化,目标是将所述混合图像在一定程度上分类为真实图像,该程度对应于从真实训练图像接管到混合图像中的像素和/或对象的数量比例。因此,如果例如混合图像的60%的图像内容是从真实训练图像接管的,而该混合图像的40%的图像内容是从逼真产生的图像接管的,则可能期望的是鉴别器以0.6的分数将混合图像分类为真实图像,以0.4的分数将混合图像分类为逼真产生的图像。
[0018]已经认识到,添加混合图像来训练鉴别器具有双重效果。一方面,可以通过这种方式对训练进行正则化,从而使鉴别器更好地学习逼真产生的图像与真实图像之间在内容和结构上的差异。另一方面,可以通过产生大量混合图像来类似地增加训练图像的现有存储库。即使仅将一个真实训练图像与一个逼真产生的图像组合,也存在大量选项可以将混合图像组装为来自两个图像的对象的“拼贴”。
[0019]特别地,例如可以选择PatchGAN鉴别器作为鉴别器。这种鉴别器确定在图像的具有预给定大小(“块”)的子区域处是存在逼真产生的图像还是存在真实图像的区别。然后将在此过程中分别获得的结果组合成总结果。这种鉴别器特别能够定量检测混合图像中真实
的图像内容与逼真产生的图像内容的混合比。
[0020]所述鉴别器例如也可以具有编码器

解码器装置,其具有编码器结构和解码器结构。编码器结构将输入图像在多个处理层中转换为信息减少的表示。解码器结构进一步将所述信息减少的表示转换为将输入图像的每个像素评估为真实像素或逼真产生的像素的评估。因此,这种鉴别器的输出不仅仅是对输入图像进行整体评估的分数。取而代之的是,所述评估是空间分辨的,因此也可以详细检测混合图像的哪些像素或对象来自真实图像以及混合图像的哪些像素或对象来自逼真产生的图像。
[0021]在另一有利的设计中,所述鉴别器在编码器结构的处理层和解码器结构的处理层之间具有至少一个直接连接,以绕过所述信息减少的表示。于是可以将来自编码器结构的信息的特别相关部分选择性地传输到解码器结构中,而不必经过最大信息减少的表示的“瓶颈”。由此鉴别器获得了“U

Net”架构。
[0022]在另一特别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于从语义图(2、5a)中训练图像(3)的生成器(1)的方法(100),所述语义图向所述图像(3)的每个像素分配该像素所属对象的语义含义(4),具有以下步骤:
·
提供(110)真实训练图像(5)和相关联的语义训练图(5a),所述语义训练图向相应训练图像(5)的每个像素分配语义含义(4);
·
使用所述生成器(1)从至少一个语义训练图(5a)中产生(120)图像(3);
·
针对相同的至少一个语义训练图(5a)确定(130)至少一个真实训练图像(5);
·
从所述生成器(1)所产生的至少一个图像(3)和所确定的至少一个真实训练图像(5)中产生(140)混合图像(6),在所述混合图像中第一真实像素子集(6a)被所述生成器(1)所产生的图像(3)的分别对应的像素值占据,其余的真实像素子集(6b)被所述真实训练图像(5)的分别对应的像素值占据;
·
将全都属于相同语义训练图(5a)的所述生成器(1)所产生的图像(3)、所述至少一个真实训练图像(5)和至少一个混合图像(6)输送(150)给鉴别器(7),所述鉴别器被构造为将所述生成器(1)所产生的图像(3)与通过所述语义训练图(5a)预给定的场景的真实图像(5)区分开来;
·
对表征所述生成器(1)的行为的生成器参数(1a)进行优化(160),目标是将所述生成器(1)所产生的图像(3)由所述鉴别器(7)错误分类为真实图像(5);
·
对表征所述鉴别器(7)的行为的鉴别器参数(7a)进行优化(170),目标是在区分产生的图像(3)和真实图像(5)时提高准确性。2.根据权利要求1所述的方法(100),其中所述混合图像(6)的像素的以下连续区域(61、62)统一被所述生成器(1)所产生的图像(3)的对应像素值或统一被所述真实训练图像(5)的对应像素值占据(141),所述连续区域由所述语义训练图(5a)分配了相同的语义含义(4)。3.根据权利要求1至2中任一项所述的方法(100),其中对所述鉴别器参数(7a)附加地进行优化(171),目标是将所述混合图像(6)在一定程度上分类为真实图像(5),该程度对应于从真实训练图像(5)接管到所述混合图像(6)中的像素和/或对象的数量比例。4.根据权利要求1至3中任一项所述的方法(100),其中选择(151)PatchGAN鉴别器作为鉴别器(7),所述PatchGAN鉴别器确定产生的图像(3)与真实图像(5)之间在所述图像(3、5、6)的具有预给定大小的子区域处的区别,并且将在此过程中分别获得的结果组合成总结果。5.根据权利要求1至3中任一项所述的方法(100),其中选择(152)具有编码器结构和解码器结构的鉴别器(7),所述编码器结构将输入图像在多个连续的处理层中转换为信息减少的表示,所述解码器结构进一步将所述信息减少的...

【专利技术属性】
技术研发人员:E
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1