一种图像语义分类方法、介质、装置和计算设备制造方法及图纸

技术编号:19779122 阅读:20 留言:0更新日期:2018-12-15 11:36
本发明专利技术的实施方式提供了一种图像语义分类方法、介质、装置和计算设备。该方法包括:对待识别图像进行语义分割生成第一语义标签,第一语义标签用于指示待识别图像中至少一个像素的语义分类;将第一语义标签存储到三维空间的至少一个体素中,至少一个像素与至少一个体素一一对应;以及将至少一个体素的第一有效距离场值存储到至少一个体素中。通过本发明专利技术的方法使得在不同时间(或不同视角)下待识别图像构建出的三维空间中同一物体的语义分类保持一致,提高了图像语义分类的准确性,简化了图像语义分类的过程,从而实现了动态变化场景中的语义分类。

【技术实现步骤摘要】
一种图像语义分类方法、介质、装置和计算设备
本专利技术的实施方式涉及软件
,更具体地,本专利技术的实施方式涉及一种图像语义分类方法、介质、装置和计算设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。图像语义分类,即语义分类,是图像识别的基础,通常可以用于自动驾驶系统(例如街景识别与理解)、无人机系统(例如无人机着陆点的判断)以及穿戴式设备等场景中。图像语义分类主要包括2D图像语义分类和3D场景语义分类。2D图像语义分类是指对单帧图像中的每个像素进行语义分割。3D场景语义分类是指对三维重建后的物体模型进行语义分类。目前,现有的2D图像语义分类的技术方案通常仅对单帧图像进行预测,这使得这种技术方案并不能保证所预测的图像的时间连续性和空间连续性,进而难以保证在不同时间或不同视角下同一物体的语义分类结果保持一致。因此现有的2D图像语义分类的技术方案并不适用于机器人、自动驾驶等动态变化场景。现有的3D场景语义分类的技术方案主要分为实时在线的3D场景语义分类和离线的3D点云语义分类。现有的离线的3D点云语义分类通常需要先完成离线的语义分析过程得到语义分析结果,再上传该语义分析结果,这使得3D点云语义分类过程复杂、耗时长,难以保证在动态变化场景中3D场景语义分类的实时性,因此这种技术方案并不适用于动态变化场景。而现有的实时在线的3D场景语义分类通常使用预测概率图来描述语义分类,并基于预测概率图来判定语义分类的准确性以及传输更新语义分析结果。虽然这种方案可以实时在线进行3D场景语义分类,但由于预测概率图需要占用极大的显存空间,且预测概率图生成过程繁琐、耗时长,导致这种语义分类的技术方案存在计算量大,实现复杂度高、传输更新难度大等问题,在动态变化场景中的实现效果较差,因此这种技术方案也无法满足机器人、自动驾驶等动态变化场景对图像语义分类的要求。综上,现有的图像语义分类技术均不能较好地实现动态变化场景中的语义分类。
技术实现思路
出于现有的2D图像语义分类的技术方案由于仅能够对单帧图像进行预测,因而其难以保证在不同时间或不同视角下同一物体的语义分类结果的一致性。而现有的3D场景语义分类的技术方案存在实现复杂度高、语义分析结果的传输更新难度大、难以保证实时运行等问题。因此现有的图像语义分类技术均不能较好地实现动态变化场景中的语义分类。为此,非常需要一种改进的图像语义分类的技术方案,以实现动态变化场景中的语义分类。在本上下文中,本专利技术的实施方式期望提供一种图像语义分类的方法、装置、介质和计算设备。在本专利技术实施方式的第一方面中,提供了一种图像语义分类方法,包括:对待识别图像进行语义分割生成第一语义标签,第一语义标签用于指示待识别图像中至少一个像素点像素的语义分类;将第一语义标签存储到三维空间的至少一个体素中,体素是待识别图像构建的三维空间中用于承载数据的基本单位,至少一个像素点像素与至少一个体素一一对应;以及将至少一个体素的第一有效距离场值存储到至少一个体素中,第一有效距离场值用于指示至少一个体素在三维空间中的位置。在本专利技术的一个实施例中,该图像语义分类方法还包括:将第一语义标签存储到三维空间的至少一个体素中之前,根据第一语义标签设置语义标签置信度,语义标签置信度用于指示至少一个体素对应的像素的语义分类的准确程度。在本专利技术的一个实施例中,至少一个体素中存储有至少一个第二语义标签,第二语义标签为时间早于待识别图像的至少一帧图像中对应的至少一个像素的语义分类。在本专利技术的一个实施例中,根据第一语义标签设置语义标签置信度,包括:判断第一语义标签和第二语义标签是否一致;根据判断结果,对至少一个体素中存储的语义标签置信度进行调整。在本专利技术的一个实施例中,将第一语义标签存储到至少一个体素中,包括:确定至少一个像素点对应的至少一个体素;将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中。在本专利技术的一个实施例中,将第一语义标签与第二语义标签进行融合并存储到至少一个像素点对应的至少一个体素中,包括:若语义标签置信度满足预设门限,则将至少一个像素对应的至少一个体素中存储的第二语义标签替换为第一语义标签;或者若语义标签置信度未满足预设门限,则继续在至少一个像素对应的至少一个体素中存储第二语义标签。在本专利技术的一个实施例中,对待识别图像进行语义分割生成第一语义标签,包括:输入待识别图像;利用神经网络对待识别图像进行语义分割输出第一语义标签。在本专利技术的一个实施例中,神经网络为全卷积神经网络,和/或,神经网络所采用的损失函数为交叉熵函数。在本专利技术的一个实施例中,通过如下方法对神经网络进行训练,还包括:输入用于训练的图像和用于训练的图像对应的真值语义,真值语义用于指示用于训练的图像中每个像素的实际语义分类;利用神经网络对用于训练的图像进行语义分割得到第四语义标签,第四语义标签用于指示基于用于训练的图像进行语义分割得到的每个像素的语义分类;对比真值语义和第四语义标签;基于真值语义和第四语义标签的对比结果,对该神经网络进行训练。在本专利技术的一个实施例中,将至少一个体素的第一有效距离场值存储到至少一个体素中之前,还包括:获取相机位姿和待识别图像中至少一个像素的深度信息,其中,相机位姿是指采集设备对待识别图像进行采集时的位置和姿态,深度信息为采集设备与待识别图像中至少一个像素对应的三维空间中的物体之间的距离;根据相机位姿和深度信息计算第一有效距离场值,并确定至少一个体素的标识,至少一个体素的标识与至少一个体素一一对应。在本专利技术的一个实施例中,将至少一个体素的第一有效距离场值存储到至少一个体素中,包括:针对至少一个体素,根据至少一个体素的标识查找该至少一个体素中存储的第二有效距离场值,第二有效距离场值为时间早于待识别图像的至少一帧图像构建的三维空间中的物体表面与该至少一个体素之间的距离;将该至少一个体素的第一有效距离场值与第二有效距离场值进行融合并存储到该至少一个体素中。可选的,将该至少一个体素的第一有效距离场值与第二有效距离场值进行融合的实现方式可以为加权平均。在本专利技术实施方式的第二方面中,提供了一种图像语义分类装置,包括:生成单元,用于对待识别图像进行语义分割生成第一语义标签,第一语义标签用于指示待识别图像中至少一个像素的语义分类;存储单元,用于将第一语义标签存储到三维空间的至少一个体素中,体素是待识别图像构建的三维空间中用于承载数据的基本单位,至少一个像素与至少一个体素一一对应;将至少一个体素的第一有效距离场值存储到至少一个体素中,第一有效距离场值用于指示至少一个体素在三维空间中的位置。在本专利技术的一个实施例中,还包括:语义标签设置单元,用于在存储单元将第一语义标签存储到三维空间的至少一个体素中之前,根据第一语义标签设置语义标签置信度,该语义标签置信度用于指示至少一个体素对应的像素的语义分类的准确程度。在本专利技术的一个实施例中,至少一个体素中存储有至少一个第二语义标签,第二语义标签为时间早于待识别图像的至少一帧图像中对应的至少一个像素的语义分类。在本专利技术的一个实施例中,语义标签设置单元根据第一语义标签设置语义标签置信度时,具体用于:判断第一语义标签和第二语本文档来自技高网
...

【技术保护点】
1.一种图像语义分类方法,其特征在于,包括:对待识别图像进行语义分割生成第一语义标签,所述第一语义标签用于指示所述待识别图像中至少一个像素的语义分类;将所述第一语义标签存储到三维空间的至少一个体素中,体素是所述待识别图像构建的所述三维空间中用于承载数据的基本单位,所述至少一个像素与所述至少一个体素一一对应;以及将所述至少一个体素的第一有效距离场值存储到所述至少一个体素中,所述第一有效距离场值用于指示所述至少一个体素在所述三维空间中的位置。

【技术特征摘要】
1.一种图像语义分类方法,其特征在于,包括:对待识别图像进行语义分割生成第一语义标签,所述第一语义标签用于指示所述待识别图像中至少一个像素的语义分类;将所述第一语义标签存储到三维空间的至少一个体素中,体素是所述待识别图像构建的所述三维空间中用于承载数据的基本单位,所述至少一个像素与所述至少一个体素一一对应;以及将所述至少一个体素的第一有效距离场值存储到所述至少一个体素中,所述第一有效距离场值用于指示所述至少一个体素在所述三维空间中的位置。2.如权利要求1所述的方法,其特征在于,所述将所述第一语义标签存储到三维空间的至少一个体素中之前,还包括:根据所述第一语义标签设置语义标签置信度,所述语义标签置信度用于指示所述至少一个体素对应的像素的语义分类的准确程度。3.如权利要求2所述的方法,其特征在于,所述至少一个体素中存储有至少一个第二语义标签,所述第二语义标签为时间早于所述待识别图像的至少一帧图像中对应的所述至少一个像素的语义分类。4.如权利要求3所述的方法,其特征在于,所述根据所述第一语义标签设置语义标签置信度,包括:判断所述第一语义标签和所述第二语义标签是否一致;根据判断结果,对所述至少一个体素中存储的所述语义标签置信度进行调整。5.如权利要求3或4所述的方法,其特征在于,所述将所述第一语义标签存储到至少一个体素中,包括:确定所述至少一个像素点对应的所述至少一个体素;将所述第一语义标签与所述第二语义标签进行融合并存储到所述至少一个像素点对应的所述至少一个体素中。6.如权利要求5所述的方法,其特征在于,所述将所述第一语义标签与所述第二语义标签进行融合并存储到所述至少一个像素点对应的所述至少一个体素中,包括:若所述语义标签置信度满足预设门限,则将所述至少一个像素对应的所述至...

【专利技术属性】
技术研发人员:王加芳刘海伟丛林
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1