【技术实现步骤摘要】
可指定类别的优化抠图方法及系统
本专利技术涉及的是一种人工智能图像处理领域的技术,具体是一种可指定类别的优化抠图方法及系统。
技术介绍
抠图技术在电商等场景有较大的应用前景和用户需求。传统的抠图技术往往基于三元图(包含有确定的前景部分,确定的背景部分和前背景结合的不确定部分)根据图片的颜色、纹理等低级特征从已知确定像素部分推测不确定像素部分,而没有利用高级的语义信息,这样的方法对于前背景颜色相似或者纹理复杂的图像来说提取效果并不好,对于逐像素的处理也需花费较长时间,可见传统抠图方法难以满足日常应用场景对提取前景的高质量要求和快速处理大量图像的要求。另外,三元图的精确程度也在一定程度上决定了最后提取的前景的质量,三元图越准确,对前景的提取速度越快,质量越高,而传统的三元图的获取方式也需要大量人工。现有的全自动的人物抠图技术常见基于边缘检测大致检测出前景轮廓,再通过各类算法检测重点区域实现定位,最后根据定位所得到信息进行分割和前背景处理,但这些技术的①前背景颜色十分相近的图像无法达到较好效果,②对于边缘复杂前景部分直接使用语义分 ...
【技术保护点】
1.一种可指定类别的优化抠图方法,其特征在于,采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图,通过连通域计算和选择可快速得到某一类别的物体的三元图,再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图,得到优化质量的alpha图;/n所述的多类别预测的语义分割网络,采用ResNet-101架构进行图像特征的提取,输出的是不同类别的语义分割图以及边缘预测,其中语义分割是指:根据图片内容的语义信息将图片中不同物体的像素进行分类。/n
【技术特征摘要】
1.一种可指定类别的优化抠图方法,其特征在于,采用多类别预测的语义分割网络生成待测图像的不同类别前景的三元图,通过连通域计算和选择可快速得到某一类别的物体的三元图,再采用抠图网络根据选定类别的三元图和待测图像进行精细化抠图,得到优化质量的alpha图;
所述的多类别预测的语义分割网络,采用ResNet-101架构进行图像特征的提取,输出的是不同类别的语义分割图以及边缘预测,其中语义分割是指:根据图片内容的语义信息将图片中不同物体的像素进行分类。
2.根据权利要求1所述的方法,其特征是,所述的待测图像的不同类别前景的三元图,根据语义分割网络预测的类别确定每个类别的三元图中的对应的前景部分,再通过连通域的计算得到与对应前景部分相连的边缘部分作为三元图的未知区域,根据用户指定的某个类别得到其对应的三元图。
3.根据权利要求1所述的方法,其特征是,所述的语义分割网络具体包括:下采样层、两层扩大感受野并保持分辨率不变的扩张卷积层、用于获得不同的空间特征信息的多尺度池化层和两层上采样层,将特征图还原到原始图像大小,得到最终的不同类别预测图。
4.根据权利要求3所述的方法,其特征是,所述的下采样层为conv-BN-relu结构,即由卷积层、批量归一化层BN和激活层relu组成,以让深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的同时增加神经网络的非线性,同时该上采样层采用两次4倍双线性插值将特征图恢复为原图大小以得到最后语义分割结果。
5.根据权利要求1所述的方法,其特征是,所述的抠图网络采用Unet形式的encoder-decoder结构,包括五个子单元组成的encoder和对应五个子单元组成的decoder,通过将具有相同大小的encoder特征图和decoder特征图通过跳跃连接方式相融合,从而结合低层特征和高层特征,以达到优化细节的效果。
6.根据权利要求3或4所述的方法,其特征是,所述的下采样层进一步包括五个子单元,其中:
第一子单元:采用7*7*64的卷积核对输入做卷积操作,stride设为2,padding设为3,将所得特征图经过批量归一化层,并通过relu函数激活,将所得的激活值通过最大池化操作得到第一子单元的输出;
第二子单元:对第一子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*64、3*3*64、1*1*256卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第三子单元:对第二子单元的输出通过4个bottleneck结构,该bottleneck结构是由1*1*128、3*3*128、1*1*512卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第四子单元:对第三子单元的输出通过23个bottleneck结构,该bottleneck结构是由1*1*256、3*3*256、1*1*1024卷积层组成的,最后一个bottleneck的stride为2来进行特征图的缩小;
第五子单元:对第四子单元的输出通过3个bottleneck结构,该bottleneck结构是由1*1*512、3*3*512,膨胀率为2的空洞卷积、1*1*2048卷积层组成的,最后一个bottleneck的stride为1。
7.根据权利要求5所述的方法,其特征是,所述的encoder具体包括:
第一子单元:包括2个conv-BN-relu结构,其中两个卷积层的卷积核参数均为3*3*64,stride和padding设为1,将卷积得到的结果通过一个maxpooling层,保留池化操作时的index,以便在decoder部分做unpooling操作;
第二子单元:包括...
【专利技术属性】
技术研发人员:黄剑波,王榕榕,徐树公,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。