对齐模块、解码器的训练、图像分割方法、设备及介质技术

技术编号：41217033 阅读：4 留言：0更新日期：2024-05-09 23:38

本申请公开了一种对齐模块、解码器的训练、图像分割方法、设备及介质。该方法包括：获取第一训练样本；对源域图像进行特征提取，得到源域图像特征；对各目标域的提示文本进行特征提取，得到各目标域的文本特征；将源域图像特征和各目标域的文本特征输入到对齐模块进行处理，输出各目标域的图像特征；对各目标域的图像特征进行融合，得到视觉融合特征；对各目标域的文本特征进行融合，得到文本融合特征；根据识别对象类型，对视觉融合特征和文本融合特征进行对齐，计算对齐模块的损失值；根据损失值，调整对齐模块的参数。采用本申请实施例，可以实现提高语义分割实现效率，以及提高通用领域的语义分割准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，尤其涉及一种对齐模块、解码器的训练、图像分割方法、设备及介质。

技术介绍

1、在图像分割的任务中，图像分割模型对于未训练到的领域，往往会出现性能下降。可以通过领域泛化，实现在源域训练的模型泛化到未知的目标域上。

2、然而，针对不同目标域的图像分割任务，需要针对各目标域分别单独训练特定的分割模型，导致训练成本高，训练效率低。

技术实现思路

1、本申请提供了一种对齐模块、解码器的训练、图像分割方法、设备及介质，可以实现提高语义分割实现效率，以及提高通用领域的语义分割准确性。

2、第一方面，本申请实施例提供了一种对齐模块的训练方法，包括：

3、获取第一训练样本，第一训练样本包括源域图像、目标域的提示文本和源域图像分割真值，目标域的数量为多个；

4、对源域图像进行特征提取，得到源域图像特征；对各目标域的提示文本进行特征提取，得到各目标域的文本特征；

5、将源域图像特征和各目标域的文本特征输入到对齐模块进行处理，输出各目标域的图像特征；

6、根据源域图像分割真值，按照识别对象类型对各目标域的图像特征进行融合，得到视觉融合特征；按照识别对象类型对各目标域的文本特征进行融合，得到文本融合特征；

7、根据识别对象类型，对视觉融合特征和文本融合特征进行对齐，计算对齐模块的损失值；根据损失值，调整对齐模块的参数；

8、其中，对齐模块用于训练目标域图像分割模型中的目标域图像解码器；目标域图

9、第二方面，本申请实施例提供了一种目标域图像解码器的训练方法，包括：

10、获取第二训练样本，第二训练样本包括源域图像、第一域的提示文本和源域图像分割真值；第一域为指定需求域；

11、对源域图像进行特征提取，得到源域图像特征；对第一域的提示文本进行特征提取，得到第一域的文本特征；

12、将源域图像特征和第一域的文本特征输入到对齐模块进行处理，输出目标域图像特征；其中，对齐模块是通过如本申请任一实施例的对齐模块的训练方法训练得到的；

13、将目标域图像特征和第一域的文本特征输入到校正器进行处理，输出校正后的目标域图像特征；

14、将校正后的目标域图像特征输入到目标域图像解码器进行处理，输出目标域图像分割结果；

15、根据目标域图像分割结果与源域图像分割真值之间的差值，调整校正器和目标域图像解码器的参数。

16、第三方面，本申请实施例提供了一种图像分割方法，包括：

17、将获取的目标域图像输入到已训练的目标域图像分割模型中；目标域图像分割模型包括图像编码器和目标域图像解码器，目标域图像解码器是通过如本申请任一实施例的目标域图像解码器的训练方法训练得到的；

18、通过图像编码器得到目标域图像特征；

19、将目标域图像特征输入至目标域图像解码器进行处理，输出目标域图像分割结果；

20、根据目标域图像分割结果，确定目标对象。

21、第四方面，本申请提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行该计算机程序时实现上述的对齐模块的训练方法、目标域图像解码器的训练方法、或图像分割方法中的步骤。

22、第五方面，本申请提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述的对齐模块的训练方法、目标域图像解码器的训练方法、或图像分割方法中的步骤。

23、上述对齐模块的训练方法、目标域图像解码器的训练方法、图像分割方法、装置、计算机设备、计算机可读存储介质及计算机程序产品，通过获取多个目标域的图像特征和文本特征，并针对多个目标域进行融合，得到视觉融合特征和文本融合特征，并对视觉融合特征和文本融合特征进行对齐，以训练对齐模块，实现对齐模块在多个目标域下的图文对齐，并基于该对齐模块训练目标域图像分割模型中的目标域图像解码器，解决了现有技术中需要针对性训练目标域的图像分割模型的问题，可以提高图像分割模型的泛化能力，提高图像分割的实现效率，并且提高通用目标域的图像分割准确性。

本文档来自技高网...

【技术保护点】

1.一种对齐模块的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述源域图像分割真值，按照识别对象类型对各所述目标域的图像特征进行融合，得到视觉融合特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标域的文本特征包括至少一个识别对象类型的类别文本特征；

4.根据权利要求1所述的方法，其特征在于，所述根据识别对象类型，对所述视觉融合特征和所述文本融合特征进行对齐，计算所述对齐模块的损失值，包括：

5.根据权利要求1所述的方法，其特征在于，所述目标域包括第一域和至少一个第二域；所述目标域图像分割模型用于对所述第一域的图像进行语义分割；所述第一域和所述第二域不同，所述第一域包括指定需求域。

6.根据权利要求5所述的方法，其特征在于，所述第一域的文本特征还包括所述第一域的整体文本特征；

7.一种目标域图像解码器的训练方法，其特征在于，包括：

8.一种图像分割方法，其特征在于，包括：

9.一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的对齐模块的训练方法、权利要求7中所述的目标域图像解码器的训练方法、或权利要求8中所述的图像分割方法。

...

【技术特征摘要】

1.一种对齐模块的训练方法，其特征在于，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标域的文本特征包括至少一个识别对象类型的类别文本特征；

6.根据权利要...

【专利技术属性】
技术研发人员：田倬韬，俞越，杨森乔，刘枢，吕江波，沈小勇，
申请(专利权)人：深圳思谋信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人