【技术实现步骤摘要】
语义分割模型训练方法及其装置、计算设备和介质
[0001]本申请涉及人工智能领域,更具体地,涉及一种语义分割模型训练方法及其装置、语义分割方法及其装置、计算设备和计算机可读存储介质。
技术介绍
[0002]在许多应用中,特别是机器人、自动驾驶和虚拟现实中,都需要三维(3D)场景理解。常见的3D传感器包括激光雷达、毫米波雷达、深度相机、3D扫描仪等,它们可以从现实世界中获取物体和环境的几何、形状和比例信息,帮助AI理解现实环境。
[0003]3D传感器的扫描数据通常以3D点云的形式保存每个点的信息,包括三维坐标、反射率、尺寸等。如何从3D点云中获取有用的信息,是人工智能的重要研究领域。针对3D点云的3D语义分割可以对每个点赋予语义标签,以实现对现实中三维场景的解释。3D传感器可以是多模态的,例如可以同时获取2D图像数据(第一模态数据)、3D点云数据(第二模态数据)和红外图像数据(第三模态数据)等等。
[0004]3D语义分割会遇到域间隙或域偏移的问题,例如白天和黑夜、不同国家或样本集之间的域间隙或域偏移。例如, ...
【技术保护点】
【技术特征摘要】
1.一种用于语义分割的模型的训练方法,包括:获取包括源域样本集和目标域样本集的训练样本集,其中所述源域样本集中的每个样本包括第一模态数据、第二模态数据和与第二模态关联的语义标签,并且所述目标域样本集的至少子集中的每个样本包括第一模态数据、第二模态数据且不包括所述语义标签;针对所述训练样本集的每个样本:基于所述样本的第一模态数据生成第一模态特征,并且基于所述样本的第二模态数据生成第二模态特征,其中所述样本的第二模态数据包括多个点的数据;以及基于所述第一模态特征和第二模态特征,生成与第一模态和第二模态分别对应的预测结果、模仿结果和恢复结果,其中每个模态对应的预测结果指示基于当前模态的特征得到的所述多个点中的每个点的语义类别预测概率,每个模态对应的模仿结果指示基于当前模态的特征模仿另一模态的特征得到的所述多个点中的每个点的语义类别预测概率,并且每个模态对应的恢复结果指示利用当前模态的特征得到的另一模态的恢复数据;以及基于针对所述训练样本集的每个样本的与第一模态和第二模态分别对应的预测结果、模仿结果和恢复结果之间的跨模态处理,对所述模型进行训练。2.根据权利要求1所述的训练方法,还包括:根据预定标准,选择性地对所述训练样本集中的每个样本的第一模态数据以及第二模态数据进行掩码处理,得到至少一个样本对应的第一模态掩码数据和第二模态掩码数据;其中,基于所述样本的第一模态数据生成第一模态特征,并且基于所述样本的第二模态数据生成第二模态特征,包括:基于所述样本的第一模态数据或第一模态掩码数据生成所述第一模态特征,基于所述样本的第二模态数据或第二模态掩码数据生成所述第二模态特征,并且所述样本的第一模态特征和第二模态特征中的至少一者所基于的样本不是掩码数据。3.根据权利要求2所述的训练方法,其中,所述预定标准包括:所述训练样本集中的每个样本的第一模态数据被执行掩码处理的概率为第一预定概率,并且所述训练样本集中的每个样本的第二模态数据被执行掩码处理的概率为第二预定概率。4.根据权利要求2所述的训练方法,其中,根据预定标准选择性地对所述训练样本集中的每个样本的第一模态数据以及第二模态数据进行掩码处理,包括:将被选择进行掩码处理的每个样本的第一模态数据和第二模态数据中的至少一者分别划分为具有预定尺寸的多个块;以及基于预定去除比率,对每个模态数据划分得到的具有预定尺寸的所述多个块执行去除操作,以实现掩码处理。5.根据权利要求1
‑
4任一项所述的训练方法,其中,基于所述第一模态特征和第二模态特征,生成与第一模态和第二模态分别对应的预测结果、模仿结果以及恢复结果,包括:基于所述第一模态特征,利用所述模型的第一预测网络生成与第一模态对应的第一预测结果,并且基于所述第二模态特征,利用所述模型的第二预测网络生成与第二模态对应的第二预测结果;基于所述第一模态特征,利用所述模型的第一模仿网络生成与第一模态对应的第一预测结果,并且基于所述第二模态特征,利用所述模型的第二模仿网络生成与第二模态对应的第二模仿结果;以及
基于所述第一模态特征,利用所述模型的第一恢复网络生成与第一模态对应的第一恢复结果,并且基于所述第二模态特征,利用所述模型的第二恢复网络生成与第二模态对应的第二恢复结果。6.根据权利要求5所述的训练方法,其中,基于针对所述训练样本集的每个样本的与第一模态和第二模态分别对应的预测结果、模仿结果和恢复结果之间的跨模态处理,对所述模型进行训练,包括:针对所述训练样本集的每个样本:在所述样本不包括所述语义标签的情况下,计算所述第一预测结果和所述第二模仿结果之间的第一损失,所述第二预测结果和所述第一模仿结果之间的第二损失,所述第一恢复结果和所述样本的第二模态数据之间的第三损失,以及所述第二恢复结果和所述样本的第一模态数据的采样数据之间的第四损失;并且在所述样本包括所述语义标签的情况下,还进一步计算所述第一预测结果和所述样本的语义标签之间的第五损失以及所述第二预测结果和所述样本的语义标签之间的第六损失;以及基于针对所述训练样本集的每个样本计算的每个损失,对所述模型进行训练。7.根据权利要求6所述的训练方法,其中,所述训练样本集的每个样本的第一模态数据的采样数据通过以下方式得到:将所述样本的第二模态数据按照所述第一模态进行投影,得到第二模态
‑
第一模态投影数据,所述第二模态
‑
第一模态投影数据包括所述多个点的投影数据;根据所述第一模态投影数据中所述多个点的位置对所述样本的第一模态数据进行采样,得到所述第一模态数据的采样数据。8.根据权利要求6所述的训练方法,其中,利用KL散度损失函数计算所述第一预测结果和所述第二模仿结果之间的第一损失以及所述第二预测结果和所述第一模仿结果之间的第二损失;利用L2损失函数计算所述第一恢复结果和所述第二模态数据之间的第三损失以及所述第二恢复结果和所述第一模态数据的采样数据之间的第四损失;利用交叉熵损失函数计算所述第一预测结果和所述样本的语义标签之间的第五损失以及所述第二预测结...
【专利技术属性】
技术研发人员:张博翔,王尊冉,凌永根,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。