System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于图像处理与计算机视觉,涉及一种基于深度学习的rgb-d图像语义分割方法。
技术介绍
1、语义分割旨在对输入图像中的每个像素进行分类。作为一项经典任务,语义分割在多个领域中得到广泛应用,包括自动驾驶、面部分割、遥感图像分析和医学影像分析等。rgb图像具有丰富的色彩和纹理信息,而深度图像则包含三维几何信息。这两种图像信息相辅相成,有助于提升语义分割的效果。例如,将深度信息作为rgb信息的补充,深度信息能够提供三维几何信息,对光照变化具有鲁棒性,从而有助于模型在物体强光和阴影位置进行更准确的语义分割。
2、为了从rgb和深度数据中提取对语义分割任务有用的特征,开发一种交互并融合两种模态特征的有效方法至关重要。在liu等人于2023年发表于tits的论文“cmx:cross-modal fusion for rgb-x semantic segmentation with transformers”中,他们将rgb数据和深度数据作为输入,利用两条平行分支提取特征,并设计了cm-frm和ffm结构,用于校准和融合rgb和深度两个模态的信息。尽管该方法为统一这两种信息提供了可行的解决方案,但并未充分挖掘双模态特征的互补信息。由于rgb模态和深度模态之间存在差异,如何有效地识别它们之间的差异,并将这两种类型的信息整合为有效的特征表示仍然是一个具有挑战性的问题。
技术实现思路
1、本专利技术针对现有rgb-d语义分割方法的不足加以改进,提出一种基于深度学习的rgb-d语义
2、为实现这个目标,本专利技术的技术方案是:构建一种基于深度学习的rgb-d语义分割模型,在目标数据集上对该模型训练,再利用已训练完成的模型处理待测图片,模型输出的k个通道激活值作为对应k种语义类别的概率值。
3、本方法中的网络模型由以下三大模块构成:
4、一、双模态非局部上下文编码模块。利用双模态非局部上下文token,捕捉双模态特征的全局上下文信息。
5、二、互补特征选择模块。该模块用于增强单一模态的特征表示。
6、三、语义引导的特征校准模块。该模块利用顶层特征对浅层特征进行引导式特征校准,抑制浅层特征中的噪声信息,并增强浅层特征在语义上的特征表示。
7、本方法中的模型训练过程包含以下三个阶段:
8、一、模型参数的初始化。在分类数据集imagenet对编码器做预训练。
9、二、目标数据集的准备。选择nyudepthv2作为目标数据集。
10、三、整体模型的训练。利用预训练好的参数对网络参数初始化,并利用交叉熵损失函数监督整体网络参数的更新过程。
11、有益效果
12、1)利用包含双模态非局部上下文信息的token来交互双模态信息,能够更好的提取双模态互补特征,增强单一模态的特征表示;2)利用语义引导的特征校准模块,将顶层特征丰富的全局语义上下文信息引入对浅层特征,丰富浅层特征语义信息,并抑制浅层特征中的噪声信息,从而提升分割效果。实验证明:相比现有方法,本专利技术得到的语义分割在强光区域和反光区域效果更好,对于光照变化鲁棒性更强,并且能够有效抑制深度图噪声,提升深度图存在噪声区域的语义分割效果。
本文档来自技高网...【技术保护点】
1.一种基于深度学习的RGB-D图像语义分割方法,其特征在于包括以下模块:
【技术特征摘要】
1.一种基于深度学习的rgb-d图像语...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。