【技术实现步骤摘要】
一种循环发现关注区域识别多标签图像的方法
本专利技术涉及计算机视觉、模式识别领域,更具体地,涉及一种循环发现关注区域识别多标签图像的方法。
技术介绍
识别多标签图像在计算机视觉中是个普通且实际的任务,因为现实世界中的图像通常包含丰富且多样的语义。而这一任务主要的难点在于怎样有效地将语义标签和图像内容(比如区域或者子区域)关联起来,特别是在复杂的场景下,比如前景物体分散且大小不一致。现今用于图像多标签分类的方法通常借助于单标签分类和物体定位技术。而近年来针对这一问题的解决方法证明,同时考虑图像中不同物体的空间信息及它们的全局信息会带来非常大的性能提升。现有方法的典型流程包括两个步骤:1)提取大量的候选区域,并假设这些候选区域包含了所有的前景物体。2)预测这些候选区域的标签并规整为这张图像的多个标签。但是这些方法对生成候选区域的依赖通常会导致计算冗余,并且会忽略或者过于简化前景物体间的上下文关系。另外,基于这两个步骤的方法,其训练阶段并不是那么完美,它在训练阶段和测试阶段都很难实现端到端的联合优化。即目前对于多标签图像识别的研究主要存在以下问题:1)目前的研究,大多依 ...
【技术保护点】
一种循环发现关注区域识别多标签图像的方法,其特征在于,包括以下步骤:S1:采用一个卷积神经网络提取样本的特征表达;S2:利用上一时刻预测的变换矩阵通过空间变换网络在步骤S1获取的特征图中截取受关注的区域;S3:将关注区域输入长短时记忆单元,该单元根据输入信息及上一时刻的隐藏状态和记忆状态生成当前时刻的隐藏状态和记忆状态;S4:根据当前时刻的隐藏状态预测该关注区域的分类分数向量,并预测下一时刻空间变换网络所需的变换矩阵;S5:循环执行步骤S2‑S4,直到第K次,融合2至K时刻预测的分数向量,得到该图像最终的分类结果。
【技术特征摘要】
1.一种循环发现关注区域识别多标签图像的方法,其特征在于,包括以下步骤:S1:采用一个卷积神经网络提取样本的特征表达;S2:利用上一时刻预测的变换矩阵通过空间变换网络在步骤S1获取的特征图中截取受关注的区域;S3:将关注区域输入长短时记忆单元,该单元根据输入信息及上一时刻的隐藏状态和记忆状态生成当前时刻的隐藏状态和记忆状态;S4:根据当前时刻的隐藏状态预测该关注区域的分类分数向量,并预测下一时刻空间变换网络所需的变换矩阵;S5:循环执行步骤S2-S4,直到第K次,融合2至K时刻预测的分数向量,得到该图像最终的分类结果。2.根据权利要求1所述的循环发现关注区域识别多标签图像的方法,其特征在于,所述步骤S2中的变换矩阵,其表现形式为其中(sx,sy)表示缩放变换,(rx,ry)表示旋转变换恒为零,(tx,ty)表示平移变换,其取值范围均为[-1,1];空间变换网络根据变换矩阵中的参数即缩放和平移变换,在全局特征图的每个通道截取对应的一块区域,并调整为固定的大小进行输出。3.根据权利要求2所述的循环发现关注区域识别多标签图像的方法,其特征在于,所述空间变换网络的具体实现过程如下:S21:对已知目标矩阵坐标(xt,yt),其中-1≤xt≤1,-1≤yt≤1,求源矩阵中对应的坐标(xs,ys),其中-1≤xs...
【专利技术属性】
技术研发人员:林倞,王州霞,李冠彬,陈添水,成慧,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。