一种基于RGB-D的室内场景逐像素语义分类器构造方法及系统技术方案

技术编号:29587025 阅读:25 留言:0更新日期:2021-08-06 19:46
本发明专利技术涉及一种基于RGB‑D的室内场景逐像素语义分类器构造方法及系统,其方法包括:S1:对室内场景进行图像采集,获取RGB数据和Depth数据;S2:定义图像中的物体类别,并对其每一个像素进行类别标注;S3:将RGB数据和Depth数据,分别输入特征提取模块,同时将RGB数据输入深度估计模块,对RGB数据特征提取过程进行监督,得到对应的特征f

【技术实现步骤摘要】
一种基于RGB-D的室内场景逐像素语义分类器构造方法及系统
本专利技术涉及区块链和机器学习领域,具体涉及一种基于RGB-D的室内场景逐像素语义分类器构造方法及系统。
技术介绍
近年来,室内场景语义理解相关研究成果已经在不同领域得到了广泛的应用,包括安防领域中的突发事件预演,智能机器人领域中的定位、避障、目标找寻功能等,成为虚拟现实和增强现实等领域研究的热点问题,为人们的日常生活和工作带来了诸多便利。然而室内场景由于其光线灰暗、物体互相交叠等情况,使得室内场景的语义理解具有极大的挑战性,该研究一直是计算机图形学、虚拟现实、计算机视觉等领域一个基础且经典的问题。场景语义分割属于一种像素级别的图片分类任务,给定一幅图片I,假设其大小为w'×h',场景语义分割算法的目标是输出一张大小为w'×h'的结果图,该图中的任意一个像素点对应I中的相应位置像素,xi,j的值表示对应I中的相应位置像素对应的标签类别,其中i,j表示图中第(i,j)个位置。基于图像的语义分割是室内场景语义理解的必备前提。目前对于图像的语义分割研究已经开展了广泛而深入的研究,具体来说,有基于人工特征的方法以及基于深度学习的方法。基于人工特征的方法,主要是对输入的图像数据提取鲁棒人工特征。根据利用特征方式的不同,大致有以下几种类型方法:基于人为设定阈值的图像分割方法:例如对输入图像使用阈值的方式(均值方法、直方图相关技术以及视觉技术等)去解决图像分割问题,但是该方法对于图像中的同质区域处理效果较弱;基于分水岭算法:通过在原始梯度图像上使用分水岭算法可以得到较好的分割效果,但是该算法需要事先求解图像的梯度图,需要一个较为复杂的前期处理。随着深度学习的发展,大量基于深度神经网络的算法被提出。例如FCN算法,通过将经典的AlexNet网络最后一层修改为1×1卷积,很好的实现了对输入图像中的逐像素进行分类。后续关于图像语义分割的算法绝大多数都是基于FCN改进得到的。但是,这些算法无法有效地提取RGB特征和Depth特征,并利用这些特征来达到较好的室内场景语义分割效果。
技术实现思路
为了解决上述技术问题,本专利技术提供一种基于RGB-D的室内场景逐像素语义分类器构造方法及系统。本专利技术技术解决方案为:一种基于RGB-D的室内场景逐像素语义分类器构造方法,包括:步骤S1:对室内场景进行图像采集,获取RGB数据和Depth数据;步骤S2:定义所述图像中的物体类别,并对其每一个像素进行类别标注;步骤S3:将所述RGB数据和Depth数据,分别输入特征提取模块,同时将所述RGB数据输入深度估计模块,利用该模块对RGB数据特征提取过程进行监督,得到对应的特征frgb和fdepth;步骤S4:将所述frgb和所述fdepth输入尺度感知模块,以选择合适的尺度特征信息,并得到尺度感知特征和步骤S5:将所述和所述分别输入自注意力机制模块,进行感受野扩大化,获得特征和特征步骤S6:将特征和输入模态自适应模块,计算模态自适应权重,利用所述模态自适应权重,融合和得到所述图像的逐像素语义分类。本专利技术与现有技术相比,具有以下优点:1、本专利技术提供一种基于RGB-D数据的室内场景逐像素分类器构造方法,能够根据采集到的室内场景中的RGB和Depth数据之间的相互作用,利用Depth作为RGB数据的深度标准值,促使RGB分支提取更加有效和针对性的特征,同时设计多种模块融合来自RGB数据的特征以及Depth数据的特征,最后提出不同模态的分数图有机组合方式,为室内场景的逐像素分类提供有效的解决方案。2、本专利技术提供一种端到端的网络结构,其中特征提取的网络模块可以是共性的也可以是后期设计,并不会对本文提出的几种模块产生巨大影响。本专利技术通过整合多种模块进行端到端的优化,可以应用在室内场景中的相关应用中,尤其是针对需要细粒度语义理解的任务上,通过对当前捕获的场景进行有效的语义分割,可以有效的帮助室内机器人导航以及其它相关应用。附图说明图1为本专利技术实施例中一种基于RGB-D的室内场景逐像素语义分类器构造方法的流程图;图2为本专利技术实施例中一种基于RGB-D的室内场景逐像素语义分类器构造方法中步骤S4:将frgb和fdepth输入尺度感知模块,以选择合适的尺度特征信息,并得到尺度感知特征和的流程图;图3为本专利技术实施例中一种基于RGB-D的室内场景逐像素语义分类器构造方法中步骤S6:将特征和输入模态自适应模块,计算模态自适应权重,利用模态自适应权重,融合和得到图像的逐像素语义分类的流程图;图4为本专利技术实施例中一种基于RGB-D的室内场景逐像素语义分类器构造系统的结构框图。具体实施方式本专利技术提供了一种基于RGB-D的室内场景逐像素语义分类器构造方法,可以应用在室内场景中的相关应用中,尤其是针对需要细粒度语义理解的任务上,通过对当前捕获的场景进行有效的语义分割,可以有效的帮助室内机器人导航以及其它相关应用。为了使本专利技术的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本专利技术进一步详细说明。本专利技术实施例的执行环境采用一台4.0GHZ的中央处理器和128G字节内存的酷睿4核计算机,为了加快语义分割网络模型的训练以及推理过程,本专利技术采用了8块英伟达GeForceGTX1080TIGPU显卡来做加速计算。同时采用了Python、C++等语言编制的基于卷积神经网络服务于RGB-D输入数据的室内场景逐像素分类器的构造程序。在计算机内存和显存允许的前提下,本专利技术也可以基于其它执行环境,在此不再赘述。实施例一如图1所示,本专利技术实施例提供的一种基于RGB-D的室内场景逐像素语义分类器构造方法,包括下述步骤:步骤S1:对室内场景进行图像采集,获取RGB数据和Depth数据;步骤S2:定义图像中的物体类别,并对其每一个像素进行类别标注;步骤S3:将RGB数据和Depth数据,分别输入特征提取模块,同时将RGB数据输入深度估计模块,利用该模块对RGB数据特征提取过程进行监督,得到对应的特征frgb和fdepth;步骤S4:将frgb和fdepth输入尺度感知模块,以选择合适的尺度特征信息,并得到尺度感知特征和步骤S5:将和分别输入自注意力机制模块,进行感受野扩大化,获得特征和特征步骤S6:将和输入模态自适应模块,计算模态自适应权重,利用模态自适应权重,融合和得到图像的逐像素语义分类。在一个实施例中,上述步骤S1:对室内场景进行图像采集,获取RGB数据和Depth数据,具体包括:利用消费级深度相机,比如微软Kinect等,对室内场景进行数据采集,获取RGB数据以及Depth数据。将RGB和Depth图像其中的点坐标转换到相机坐标系下,利用红外和RGB相机的光心外参进行转换,利用该方法找到RGB图像和Depth图像上的点之间的关系,以完成数据对齐。在一个实施例中,上述步骤S2:定义图像中本文档来自技高网
...

【技术保护点】
1.一种基于RGB-D的室内场景逐像素语义分类器构造方法,其特征在于,包括:/n步骤S1:对室内场景进行图像采集,获取RGB数据和Depth数据;/n步骤S2:定义所述图像中的物体类别,并对其每一个像素进行类别标注;/n步骤S3:将所述RGB数据和Depth数据,分别输入特征提取模块,同时将所述RGB数据输入深度估计模块,利用该模块对RGB数据特征提取过程进行监督,得到对应的特征f

【技术特征摘要】
1.一种基于RGB-D的室内场景逐像素语义分类器构造方法,其特征在于,包括:
步骤S1:对室内场景进行图像采集,获取RGB数据和Depth数据;
步骤S2:定义所述图像中的物体类别,并对其每一个像素进行类别标注;
步骤S3:将所述RGB数据和Depth数据,分别输入特征提取模块,同时将所述RGB数据输入深度估计模块,利用该模块对RGB数据特征提取过程进行监督,得到对应的特征frgb和fdepth;
步骤S4:将所述frgb和所述fdepth输入尺度感知模块,以选择合适的尺度特征信息,并得到尺度感知特征和
步骤S5:将所述和所述分别输入自注意力机制模块,进行感受野扩大化,获得特征和
步骤S6:将所述和所述输入模态自适应模块,计算模态自适应权重,利用所述模态自适应权重,融合所述和所述得到所述图像的逐像素语义分类。


2.根据权利要求1所述的基于RGB-D的室内场景逐像素语义分类器构造方法,其特征在于,所述步骤S3:将所述RGB数据和Depth数据,分别输入特征提取模块,同时将所述RGB数据输入深度估计模块,利用该模块对RGB数据特征提取过程进行监督,得到对应的特征frgb和fdepth,具体包括:
将所述RGB数据和Depth数据,分别输入RGB特征提取模块和Depth特征提取模块进行特性提取,并在对所述RGB特征提取时,同时将所述RGB数据输入深度估计模块,利用该模块对RGB数据特征提取过程进行监督,分别得到对应的特征frgb和fdepth。


3.根据权利要求1所述的基于RGB-D的室内场景逐像素语义分类器构造方法,其特征在于,所述步骤S4:将所述frgb和所述fdepth输入尺度感知模块,以选择合适的尺度特征信息,并得到尺度感知特征和具体包括:
步骤S41:利用特征金字塔对所述特征frgb和fdepth进行多尺度特征提取,得到和
步骤S42:将所述和进行融合,得到融合特征并通过卷积网络得到多通道尺度权重图;
步骤S43:对所述多通道尺度权重图进行特征选择,分别得到尺度感知特征和


4.根据权利要求1所述的基于RGB-D的室内场景逐像素语义分类器构造方法,其特征在于,所述步骤S5:将所...

【专利技术属性】
技术研发人员:周锋张凤全蔡兴泉
申请(专利权)人:北方工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1