基于多模态特征融合的语义分割方法、设备及介质技术

技术编号:42776334 阅读:33 留言:0更新日期:2024-09-21 00:38
本发明专利技术公开了一种基于多模态特征融合的语义分割方法、设备及介质,涉及图像语义分割技术领域,所述方法包括:将待测3D点云图像输入预先构建好的多模态特征融合模型,以生成语义分割结果;多模态特征融合模型的构建步骤包括:根据2D图像生成2D图像特征;根据3D点云图像生成3D点云特征;将2D图像特征及3D点云特征的尺寸分别进行变形处理;将3D点云图像进行球状投影及特征后处理以生成球状2D特征;将球状2D特征分别与变形后的2D图像特征及3D点云特征进行融合以生成2D融合特征及3D融合特征;根据2D融合特征生成2D图像预测结果并计算2D交叉熵损失;根据3D融合特征生成3D点云预测结果并计算3D交叉熵损失;对齐2D图像预测结果及3D点云预测结果以计算预测损失,对齐变形后的2D图像特征及3D点云特征以计算特征损失;计算基准损失;根据基准损失调整Poi nt Transformer V2模型以形成多模态特征融合模型。采用本发明专利技术,可提高农业机器人在复杂场景下的语义理解性能。

【技术实现步骤摘要】

本专利技术涉及图像语义分割,尤其涉及一种基于多模态特征融合的语义分割方法、设备及介质


技术介绍

1、智能农业装备是农业领域的一个新兴领域,其为优化水果和蔬菜的收获提供了巨大的潜力。然而,在复杂且非结构化的环境中准确地识别果实的采摘位置是农业领域所要面对的持续挑战。

2、随着人口老龄化和劳动力成本的提高,采摘已经成为非常突出的难题,而智能化采摘也成为当前的研究热点。目前,以机器视觉为主的作业信息感知技术已成为农业机器人智能化的核心技术。然而,由于农业机器人的作业目标通常是离散个体,其个体特征具有随机性和多样性,这种非标准化的目标信息增加了农业机器人机器视觉系统感知与判断的难度,导致机器人在作业过程中无法精确定位到采摘位置。

3、就数据本身而言,二维rgb图像提供了丰富的颜色信息和细粒度的纹理,但在深度感知方面存在模糊性,其获得的相对空间语义信息有限,难以满足在非结构化的果园环境下准确识别和定位果实采摘点的需求。相比之下,三维图像数据则能够提供准确且广泛的深度信息。然而,由于场景信息的限制,三维点云图像存在几何信息较少、体素的语义信息较为稀疏的问题,单模态的语义分割方法在复杂环境中不可避免地面临一系列挑战。

4、目前的研究多集中在仅针对二维图像或三维图像的分割技术上,而对于多模态融合的分割技术研究相对较为有限。


技术实现思路

1、本专利技术所要解决的技术问题在于,提供一种基于多模态特征融合的语义分割方法、设备及介质,可提高农业机器人在复杂场景下的语义理解性能。

2、为了解决上述技术问题,本专利技术提供了一种基于多模态特征融合的语义分割方法,包括:获取待测3d点云图像;将所述待测3d点云图像输入预先构建好的多模态特征融合模型,以生成语义分割结果;所述多模态特征融合模型的构建步骤包括:将2d图像输入预先构建好的2d语义分割学生模型,以生成2d图像特征,所述2d图像包括rgb图像及图像语义分割标签;将3d点云图像输入point transformer v2模型,以生成3d点云特征,所述3d点云图像包括点云数据及点云语义分割标签;将所述2d图像特征及3d点云特征的尺寸分别进行变形处理;将所述3d点云图像进行球状投影及特征后处理,以生成球状2d特征;将所述球状2d特征与变形后的2d图像特征进行融合,以生成2d融合特征;将所述球状2d特征与变形后的3d点云特征进行融合,以生成3d融合特征;将所述2d融合特征输入所述2d语义分割学生模型以生成2d图像预测结果,并根据所述2d图像预测结果及图像语义分割标签计算2d交叉熵损失;将所述3d融合特征输入所述point transformer v2模型以生成3d点云预测结果,并根据所述3d点云预测结果及点云语义分割标签计算3d交叉熵损失;对齐所述2d图像预测结果及3d点云预测结果以计算预测损失,并对齐变形后的2d图像特征及3d点云特征以计算特征损失;根据所述2d交叉熵损失、3d交叉熵损失、预测损失及特征损失,计算基准损失;根据所述基准损失调整所述point transformer v2模型,以形成多模态特征融合模型。

3、作为上述方案的改进,所述2d语义分割学生模型是以pspnet-resnet 101作为教师模型,以pspnet-mobilenetv2作为学生模型,并采用知识蒸馏技术对所述教师模型进行模型压缩后的轻量化语义分割模型。

4、作为上述方案的改进,还包括对所述多模态特征融合模型进行训练,训练步骤包括:利用pascal voc数据集对所述2d语义分割学生模型进行预训练,并利用kitti数据集对point transformer v2模型进行预训练,以生成预训练权重;通过所述预训练权重更新所述多模态特征融合模型;利用2d图像训练集及3d点云图像训练集训练更新后的所述多模态特征融合模型,以生成网络权重;通过所述网络权重再次更新所述多模态特征融合模型。

5、作为上述方案的改进,所述将所述2d图像特征及3d点云特征的尺寸分别进行变形处理的步骤包括:将所述2d图像特征及3d点云特征分别还原到原始图像的尺寸;将尺寸还原后的2d图像特征及3d点云特征分别进行特征维度转换。

6、作为上述方案的改进,所述将所述球状2d特征与变形后的2d图像特征进行融合,以生成2d融合特征的步骤包括:将所述球状2d特征与变形后的2d图像特征进行拼接处理;将所述拼接结果进行cbl处理,以生成初始融合特征;对所述初始融合特征进行cbl处理后,通过激活函数进行特征处理,以生成基准融合特征;将所述初始融合特征与基准融合特征进行逐元素相乘处理;将逐元素相乘处理结果与变形后的2d图像特征进行逐元素相加处理,以生成2d融合特征。

7、作为上述方案的改进,所述将所述球状2d特征与变形后的3d点云特征进行融合,以生成3d融合特征的步骤包括:对所述球状2d特征进行加权处理;对变形后的3d点云特征进行加权处理;将加权后的球状2d特征及3d点云特征进行逐元素相加处理,以生成3d融合特征。

8、作为上述方案的改进,所述将所述3d融合特征输入所述point transformer v2模型以生成3d点云预测结果的步骤包括:通过所述point transformer v2模型对所述3d融合特征进行上采样,以生成3d点云预测结果。

9、作为上述方案的改进,所述对齐所述2d图像预测结果及3d点云预测结果以计算预测损失,并对齐变形后的2d图像特征及3d点云特征以计算特征损失的步骤包括:计算所述2d图像预测结果与3d点云预测结果之间的kl散度值,并将其作为预测损失;计算变形后的2d图像特征与变形后的3d点云特征之间的kl散度值,并将其作为特征损失。

10、相应地,本专利技术还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现上述多模态特征融合的语义分割方法的步骤。

11、相应地,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述多模态特征融合的语义分割方法的步骤。

12、本专利技术可应用于复杂的果园环境的多模态特征融合语义分割,实施本专利技术具有以下有益效果:

13、本专利技术将2d图像特征和3d点云特征进行融合,通过将额外的知识迁移到3d模型,同时在进行知识迁移的过程中可以很好地保留了来自多模态数据的完整信息;

14、本专利技术将融合后的特征与点云特征进行单向对齐,通过单向对齐确保在不丢失模态特定信息的情况下增强融合的点云特征,使模型在面对复杂背景、果实个体离散等挑战时也能表现出高效的性能;

15、进一步,本专利技术基于知识蒸馏技术,通过强大的教师模型指导训练出一个轻量化的2d语义分割学生模型,使其在参数量大幅降低的同时能保持与教师模型相近甚至超越教师模型的表现。

本文档来自技高网...

【技术保护点】

1.一种基于多模态特征融合的语义分割方法,其特征在于,包括:

2.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述2D语义分割学生模型是以PSPNet-ResNet 101作为教师模型,以PSPNet-MobileNetv2作为学生模型,并采用知识蒸馏技术对所述教师模型进行模型压缩后的轻量化语义分割模型。

3.如权利要求2所述的基于多模态特征融合的语义分割方法,其特征在于,还包括对所述多模态特征融合模型进行训练,训练步骤包括:

4.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述将所述2D图像特征及3D点云特征的尺寸分别进行变形处理的步骤包括:

5.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述将所述球状2D特征与变形后的2D图像特征进行融合,以生成2D融合特征的步骤包括:

6.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述将所述球状2D特征与变形后的3D点云特征进行融合,以生成3D融合特征的步骤包括:

7.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述将所述3D融合特征输入所述Point Transformer V2模型以生成3D点云预测结果的步骤包括:

8.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述对齐所述2D图像预测结果及3D点云预测结果以计算预测损失,并对齐变形后的2D图像特征及3D点云特征以计算特征损失的步骤包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于多模态特征融合的语义分割方法,其特征在于,包括:

2.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述2d语义分割学生模型是以pspnet-resnet 101作为教师模型,以pspnet-mobilenetv2作为学生模型,并采用知识蒸馏技术对所述教师模型进行模型压缩后的轻量化语义分割模型。

3.如权利要求2所述的基于多模态特征融合的语义分割方法,其特征在于,还包括对所述多模态特征融合模型进行训练,训练步骤包括:

4.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述将所述2d图像特征及3d点云特征的尺寸分别进行变形处理的步骤包括:

5.如权利要求1所述的基于多模态特征融合的语义分割方法,其特征在于,所述将所述球状2d特征与变形后的2d图像特征进行融合,以生成2d融合特征的步骤包括:

6.如权利要求1所述的基于多模态...

【专利技术属性】
技术研发人员:王金海林学民罗陆锋陈明猷骆少明
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1