【技术实现步骤摘要】
用于通过语义分割提供主导场景分类的系统和方法相关申请的交叉引用本申请要求2018年12月21日向美国专利商标局提交的美国临时专利申请62/784,320、以及2019年6月25日向美国专利商标局提交的美国专利申请16/452,052的优先权和权益,其全部公开内容通过引用结合于此。
本公开的实施例的各方面涉及计算机视觉的领域,具体包括用于通过语义分割提供主导场景分类的系统和方法。
技术介绍
场景分类是指感知自然场景并理解场景内容的过程。人类可以用他们的眼睛感知场景并识别场景的显著方面(例如,在地标或旅游景点前面的人)。在计算机视觉的环境中,场景分类可以包括使用相机捕获场景的一个或多个图像并识别场景的元素。语义分割是指识别图像中对应于特定类别对象(例如,人、建筑物和树)的部分或区域的过程。
技术实现思路
本公开的实施例的各方面涉及执行场景图像的主导场景(dominantscene)分类。主导场景分类包括识别场景的一个或多个主题。本公开的实施例的一些方面利用语义分割来执行主导场景分类。根 ...
【技术保护点】
1.一种用于计算场景的主导类别的方法,包括:/n接收场景的输入图像;/n通过卷积神经网络生成所述输入图像的分割图,所述分割图包括多个像素,所述多个像素中的每个像素用多个类别中的对应类别来标记;/n基于所述分割图计算多个面积比,所述多个面积比中的每个面积比对应于所述分割图的多个类别中的不同类别;/n应用推理以基于所述多个面积比生成多个排序标签;以及/n基于所述多个排序标签输出所述场景的检测到的主导类别。/n
【技术特征摘要】
20181221 US 62/784,320;20190625 US 16/452,0521.一种用于计算场景的主导类别的方法,包括:
接收场景的输入图像;
通过卷积神经网络生成所述输入图像的分割图,所述分割图包括多个像素,所述多个像素中的每个像素用多个类别中的对应类别来标记;
基于所述分割图计算多个面积比,所述多个面积比中的每个面积比对应于所述分割图的多个类别中的不同类别;
应用推理以基于所述多个面积比生成多个排序标签;以及
基于所述多个排序标签输出所述场景的检测到的主导类别。
2.根据权利要求1所述的方法,还包括基于所述多个面积比中的最高排序标签来确定所述检测到的主导类别。
3.根据权利要求1所述的方法,还包括使用被配置为接收空洞卷积层的输出的空洞空间金字塔池化模块,并且
其中,所述分割图是基于所述空洞空间金字塔池化模块的输出来计算的。
4.根据权利要求1所述的方法,其中,计算所述多个面积比还包括:
通过将所述分割图的每个位置乘以多个空间重要性权重中的对应的一个,对所述分割图进行空间加权;以及
对空间加权的分割图求和以计算所述多个类别中的每个类别的空间加权面积比,
其中,所述空间重要性权重是在与所述输入图像的中间三分之一相对应的区域中具有最高权重的高斯滤波器的加权组合。
5.根据权利要求1所述的方法,其中,计算所述多个面积比还包括:通过将每个类别的面积比乘以多个类别重要性权重中的对应类别重要性权重,对所述多个面积比进行类别加权,并且
其中,所述多个类别重要性权重包括前景类别组,所述前景类别组具有比背景类别组更高的权重。
6.根据权利要求5所述的方法,其中,所述前景类别组包括文本类别和人类别,并且
其中,所述背景类别组包括天空类别和树类别。
7.根据权利要求1所述的方法,还包括:
在所述输入图像之前接收输入图像序列;
计算所述输入图像序列中的每个图像的每个像素上的softmax;
对所述输入图像序列中的每个图像上的每个像素执行时间滤波,以计算滤波后的softmax卷;以及
计算所述滤波后的softmax卷的最大值,以计算所述分割图。
8.根据权利要求7所述的方法,其中,所述时间滤波是用三次指数平滑滤波器来执行的。
9.根据权利要求7所述的方法,还包括:
为从所述输入图像序列中计算的分割图序列生成加权面积比序列;以及
对所述加权面积比序列执行时间滤波,
其中,所述多个排序标签是基于所述加权面积比序列来计算的。
10.根据权利要求9所述的方法,其中,所述检测到的主导类别通过以下各项来选择:
评估滞后条件,其中当先前检测到的主导类别是所述多个排序标签中的第二高排序标签并且当最高排序标签和所述第二高排序标签之间的加权面积比的差小于阈值时,满足所述滞后条件;
响应于确定满足所述滞后条件,将所述先前检测到的主导类别保持为主导类别;以及
响应于确定不满足所述滞后条件,将所述最高排序标签设置为所述检测到的主导类别。
11.根据权利要求1所述的方法,其中,所述分割图的每个像素与一个或多个对应的置信度值相关联,所述一个或多个对应的置信度值中的每一个对应于所述多个类别中的不同类别,并且
其中,所述方法还包括:通过从所述分割图中置信度图的对应位置的置信度值超过与所述分割图的位置的类别相对应的阈值的位置中选择值来阈值化所述分割图。
12.根据权利要求11所述的方法,其中,所述分割图是从所述卷积神经网络输出的多个逻辑中计算的,所述多个逻辑包括空间维度和特征维度,并且
其中,所述一个或多个置信度值形成置信度图,所述置信度图通过以下各项来生成:
沿着所述多个逻辑的特征维度计算softmax;以及
沿着所述多个逻辑的特征维度计算所述softmax的最大值,以计算与所述置信度图的每个位置相对应的置信度值。
13.根据权利要求1所述的方法,其中,所述卷积神经网络包括全局分类头,所述全局分类头被配置为计算所述输入图像的类别的全局分类,并且
其中,...
【专利技术属性】
技术研发人员:M埃尔卡米,刘青峰,RM瓦达利,A康,裵东运,金泰义,李正元,刘在元,M维杰,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:韩国;KR
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。