当前位置: 首页 > 专利查询>中国科学院香港创新研究院人工智能与机器人创新中心有限公司专利>正文

语义分割模型的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：40441130 阅读：7 留言：0更新日期：2024-02-22 23:03

本发明专利技术提供一种语义分割模型的训练方法、装置、电子设备和存储介质，其中方法包括：基于采样时间戳和样本分割图像，确定带噪分割图像；基于初始分割模型，确定样本图像的图像特征，并基于图像特征，以及采样时间戳和带噪分割图像，确定样本图像对应的预测分割图像；基于样本分割图像和预测分割图像，对初始分割模型进行参数迭代，得到语义分割模型；初始分割模型是在判别式语义分割模型的基础上，结合扩散适配器构建得到的，克服了传统方案中对细节处缺少优化，以及模型参数过大无法与已有的分割模型兼容，导致的模型性能较差的缺陷，能够在不显著增加模型参数的同时，实现对细节处的优化，以及模型性能的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及一种语义分割模型的训练方法、装置、电子设备和存储介质。

技术介绍

1、语义分割，作为计算机视觉领域中的重要研究方向，其不同于目标检测和识别，其实现了输入图像的像素级的分类预测。目前，主流的语义分割模型大多属于判别式模型，在推理阶段仅需单次正向传播即可，但是单次正向传播存在一个较为严重的问题，即单次正向传播忽略了分割细节处的优化，从而导致了模型的分割性能欠佳。

2、此外，当前的语义分割任务中，受扩散模型的启发已尝试将语义分割任务重构为去噪任务/条件生成任务，然而在去噪/条件生成的过程中，目前的分割模型往往需要借助额外的去噪解码器，以进行去噪预测，这不仅会大量增加模型参数，同时还难与已有的主流分割模型兼容，从而导致了模型的性能较差，进而使得分割效果欠佳。

技术实现思路

1、本专利技术提供一种语义分割模型的训练方法、装置、电子设备和存储介质，用以解决现有技术中对细节处缺少优化，以及模型参数过大无法与已有的分割模型兼容，导致的模型性能较差，分割效果欠佳的缺陷，实现对细节处的优化，以及模型性能的提升。

2、本专利技术提供一种语义分割模型的训练方法，包括：

3、确定样本图像及其对应的样本分割图像；

4、基于采样时间戳和所述样本分割图像，确定带噪分割图像；

5、将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像；

6、基于所述样本分割图

7、所述初始分割模型是在判别式语义分割模型的基础上，结合扩散适配器构建得到的，所述初始分割模型用于确定所述样本图像的图像特征，并基于所述图像特征，以及所述采样时间戳和所述带噪分割图像，确定所述样本图像对应的预测分割图像。

8、根据本专利技术提供的一种语义分割模型的训练方法，所述将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像，包括：

9、将所述样本图像输入至所述判别式语义分割模型中的特征编码层，得到所述特征编码层输出的图像特征；

10、将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器，得到所述扩散适配器输出的目标图像特征；

11、将所述目标图像特征输入至所述判别式语义分割模型中的特征解码层，得到所述特征解码层输出的预测分割图像。

12、根据本专利技术提供的一种语义分割模型的训练方法，所述将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器，得到所述扩散适配器输出的目标图像特征，包括：

13、将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征；

14、将所述时间注入图像特征输入至所述扩散适配器中的中层条件注入层，得到所述中层条件注入层输出的信息注入图像特征；

15、将所述信息注入图像特征和所述采样时间戳输入至所述扩散适配器中的下层时间注入层，得到所述下层时间注入层输出的目标图像特征。

16、根据本专利技术提供的一种语义分割模型的训练方法，所述将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征，包括：

17、将所述采样时间戳输入至所述扩散适配器中的时间嵌入块，得到所述时间嵌入块输出的时间戳嵌入；

18、将所述带噪分割图像输入至所述扩散适配器中的图像卷积块，得到所述图像卷积块输出的带噪图像嵌入；

19、将所述时间戳嵌入、所述带噪图像嵌入，以及所述图像特征输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征。

20、根据本专利技术提供的一种语义分割模型的训练方法，所述将所述时间戳嵌入、所述带噪图像嵌入，以及所述图像特征输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征，包括：

21、将所述时间戳嵌入和所述带噪图像嵌入输入至所述上层时间注入层中的第一时间注入块，得到所述第一时间注入块输出的所述时间注入图像特征中的第一时间注入特征；

22、将所述时间戳嵌入和所述图像特征输入至所述上层时间注入层中的第二时间注入块，得到所述第二时间注入块输出的所述时间注入图像特征中的第二时间注入特征。

23、根据本专利技术提供的一种语义分割模型的训练方法，所述图像特征为多尺度图像特征；

24、所述将所述时间戳嵌入和所述图像特征输入至所述上层时间注入层中的第二时间注入块，得到所述第二时间注入块输出的所述时间注入图像特征中的第二时间注入特征，包括：

25、将所述时间戳嵌入和所述多尺度图像特征中最小分辨率的图像特征输入至所述第二时间注入块，得到所述第二时间注入块输出的所述时间注入图像特征中的第二时间注入特征。

26、根据本专利技术提供的一种语义分割模型的训练方法，所述将所述时间注入图像特征输入至所述扩散适配器中的中层条件注入层，得到所述中层条件注入层输出的信息注入图像特征，包括：

27、将所述第一时间注入特征和所述第二时间注入特征输入至所述中层条件注入层，得到所述中层条件注入层输出的信息注入图像特征；

28、所述将所述信息注入图像特征和所述采样时间戳输入至所述扩散适配器中的下层时间注入层，得到所述下层时间注入层输出的目标图像特征，包括：

29、将所述信息注入图像特征和所述时间戳嵌入输入至所述下层时间注入层，得到所述下层时间注入层输出的最小分辨率的目标图像特征；

30、将所述时间戳嵌入，以及所述多尺度图像特征中除最小分辨率外其他分辨率的图像特征输入至所述第二时间注入块，得到所述第二时间注入块输出的其他分辨率的目标图像特征；

31、基于所述最小分辨率的目标图像特征，以及所述其他分辨率的目标图像特征，确定所述目标图像特征。

32、本专利技术还提供一种语义分割模型的训练装置，包括：

33、确定单元，用于确定样本图像及其对应的样本分割图像；

34、加噪单元，用于基于采样时间戳和所述样本分割图像，确定带噪分割图像；

35、预测单元，用于将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像；

36、训练单元，用于基于所述样本分割图像和所述预测分割图像，对所述初始分割模型进行参数迭代，得到语义分割模型；

37、所述初始分割模型是在判别式语义分割模型的基础上，结合扩散适配器构建得到的，所述初始分割模型用于确定所述样本图像的图像特征，并基于所述图像特征，以及所述采样时间戳和所述带噪分割图像，确定所述样本图本文档来自技高网...

【技术保护点】

1.一种语义分割模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语义分割模型的训练方法，其特征在于，所述将所述样本图像、所述采样时间戳和所述带噪分割图像输入至初始分割模型，得到所述初始分割模型输出的预测分割图像，包括：

3.根据权利要求2所述的语义分割模型的训练方法，其特征在于，所述将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器，得到所述扩散适配器输出的目标图像特征，包括：

4.根据权利要求3所述的语义分割模型的训练方法，其特征在于，所述将所述图像特征，以及所述采样时间戳和所述带噪分割图像输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征，包括：

5.根据权利要求4所述的语义分割模型的训练方法，其特征在于，所述将所述时间戳嵌入、所述带噪图像嵌入，以及所述图像特征输入至所述扩散适配器中的上层时间注入层，得到所述上层时间注入层输出的时间注入图像特征，包括：

6.根据权利要求5所述的语义分割模型的训练方法，其特征在于，所述图像特征为多尺度图像特征；

...

【技术特征摘要】

1.一种语义分割模型的训练方法，其特征在于，包括：

5.根据权利要求4所述的语义分割模型的训练方法，其特征在于，所述将所述时间戳嵌入、所述带噪图像嵌入，以及所述图像特征输入至所述扩散...

【专利技术属性】
技术研发人员：张兆翔，雷震，陈李易，樊峻菘，张国文，
申请(专利权)人：中国科学院香港创新研究院人工智能与机器人创新中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人