基于深度神经网络的目标检测方法、系统及装置制造方法及图纸

技术编号:21454615 阅读:25 留言:0更新日期:2019-06-26 04:59
本发明专利技术公开了一种基于深度神经网络的目标检测方法、系统及装置,包括:基于特征学习网络提取待测视频中视频帧的不同尺度的深层特征;对视频帧进行超像素分割获取超像素结构图;对深层特征和超像素结构图进行特征融合获取融合特征;基于条件随机场网络并且根据融合特征进行目标语义分类得到目标语义标签;根据目标语义标签进行边框回归得到目标检测结果。本发明专利技术可以精确检测视频中背景复杂、密度高、目标小的目标,尤其适用于针对航拍视频的目标识别任务。

【技术实现步骤摘要】
基于深度神经网络的目标检测方法、系统及装置
本专利技术涉及计算机视觉
,具体涉及一种基于深度神经网络的目标检测方法、系统及装置。
技术介绍
近几年,目标检测技术引起人们的极大关注,并在众多领域取得广泛的应用,但是基于航拍影像的目标检测任务仍然面临很多挑战。首先,大多数航空影像都是垂直或倾斜地在高空拍摄获取,所以图像背景从地面拍摄的自然景观图像更混乱。例如,在航拍影像中检测车辆时,一些类似的物体,如屋顶设备和变电站箱可能导致误报检测。其次,在广阔的视野拍摄影像时,航拍影像中的物体非常小、且密度高于自然场景影像。最后,缺乏大规模和良好的注释数据集,这限制了训练网络的检测性能。目前,对航拍影像的目标检测方法大多基于滑动窗口搜索和浅层学习的特征,但是由于该方法不能从航拍影像中获取检测对象全面的信息,所以其应用十分有限,并导致其在不同任务的监测结果的不一致性。例如,基于R-CNN的目标检测方法,虽然卷积神经网络具有可以学习强大的层次结构功能,但是它们用于在航拍影像中对象检测任务时,由于该网络执行多个最大化和下采样操作,会导致信号下采样问题和相对较弱的空间描述。另一方面,由于航拍设备的高度多变和多角度旋转,航拍影像中的物体通常具有小尺寸和多尺度和形状的变形,这本质上限制了卷积神经网络的空间描述能力。
技术实现思路
本专利技术的目的是提供一种基于深度神经网络的目标检测方法、系统及装置,能够检测视频中背景复杂、密度高、目标小的目标,提高目标检测的精度。为达成上述目的,本专利技术的第一方面,提供了一种基于深度神经网络的目标检测方法,所述方法包括:基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图;对所述深层特征和超像素结构图进行特征融合获取融合特征;基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签;根据所述目标语义标签进行边框回归得到目标检测结果。进一步地,“对所述视频帧进行超像素分割获取所述视频帧对应的超像素模型图”的步骤包括:基于简单线性迭代聚类算法对所述视频帧进行超像素分割;计算超像素分割后得到的每个超像素块的像素平均值;根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。进一步地,在“基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签”的步骤之前,所述方法还包括:基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练。进一步地,“基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练”的步骤包括:按照下式所示的方法优化所述条件随机场网络的网络权重:其中,V表示超像素结构图中超像素块集合,E表示相邻超像素块的连接关系集合,eij表示第i个超像素块与第j个超像素块之间的连接关系,x(n)表示第n个融合特征,表示所述第n个融合特征中第i个超像素块对应的权重,表示所述第n个融合特征中第j个超像素块对应的权重,n=1,2,3…,M,M表示融合特征的数量,表示预设的所述x(n)和对应的单元项函数,表示预设的所述x(n)、和对应的二元项函数,Z(x(n),w)表示预设的基于所述x(n)、w的条件推论函数,ci,cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值,li,lj分别表示第i个超像素块、第j个超像素块对应的分类类别,w表示所述条件随机场网络的权重并且w=[wN,wE],w*表示所述w优化后的值,wN表示预设的所述单元项函数的权重,wE表示预设的所述二元项函数的权重,T表示向量或矩阵的转置,Pk(yk,a)表示第k个超像素块属于第a个预设类别的概率分布函数,yk,a表示第k个超像素块属于第a个预设类别的概率,γK表示所述第k个超像素块的颜色信息对应的权重,λ表示预设的非负L2正则化参数,表示2范数的平方。本专利技术的第二方面,还提供了一种基于深度神经网络的目标检测系统,所述系统包括:特征提取模块,配置为基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;超像素分割模块,配置为对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图;特征融合模块,配置为对所述深层特征和超像素结构图进行特征融合获取融合特征;语义分类模块,配置为基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签;目标检测模块,配置为根据所述目标语义标签进行边框回归得到目标检测结果。进一步地,所述超像素分割模块进一步配置为执行如下操作:基于简单线性迭代聚类算法对所述视频帧进行超像素分割;计算超像素分割后得到的每个超像素块的像素平均值;根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。进一步地,所述系统还包括网络训练模块,所述网络训练模块配置为执行如下操作:基于预设的第一融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练。进一步地,所述网络训练模块进一步配置为按照下式所示的方法优化所述条件随机场网络的网络权重:其中,V表示超像素结构图中超像素块集合,E表示相邻超像素块的连接关系集合,eij表示第i个超像素块与第j个超像素块之间的连接关系,x(n)表示第n个融合特征,表示所述第n个融合特征中第i个超像素块对应的权重,表示所述第n个融合特征中第j个超像素块对应的权重,n=1,2,3…,M,M表示融合特征的数量,表示预设的所述x(n)和对应的单元项函数,表示预设的所述x(n)、和对应的二元项函数,Z(x(n),w)表示预设的基于所述x(n)、w的条件推论函数,ci,cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值,li,lj分别表示第i个超像素块、第j个超像素块对应的分类类别,w表示所述条件随机场网络的权重并且w=[wN,wE],w*表示所述w优化后的值,wN表示预设的所述单元项函数的权重,wE表示预设的所述二元项函数的权重,T表示向量或矩阵的转置,Pk(yk,a)表示第k个超像素块属于第a个预设类别的概率分布函数,yk,a表示第k个超像素块属于第a个预设类别的概率,γK表示所述第k个超像素块的颜色信息对应的权重,λ表示预设的非负L2正则化参数,表示2范数的平方。本专利技术的第三方面,还提供了一种存储装置,其中存储多条程序,所述程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。本专利技术的第四方面,还提供了一种处理装置,包括处理器,适于执行各条程序;以及存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于深度神经网络的目标检测方法。本专利技术的优点是:本专利技术提供的基于深度神经网络的目标检测方法,可以检测视频中背景复杂、密度高、目标小的目标,提高目标检测的精度。附图说明图1是本专利技术实施例中的一种基于深度神经网络的目标检测方法的主要步骤示意图。图2是本专利技术实施例中的一种基于深度神经网络的目标检测方法的主要流程示意图。图3是本专利技术实施例中的一种在UAV23数据集上的目标检测结果示意图。图4是本专利技术实施例中的一种基于深度神经网络的目标检测系统的主要结构示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的目标检测方法,其特征在于,所述方法包括:基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图;对所述深层特征和超像素结构图进行特征融合获取融合特征;基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签;根据所述目标语义标签进行边框回归得到目标检测结果。

【技术特征摘要】
1.一种基于深度神经网络的目标检测方法,其特征在于,所述方法包括:基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图;对所述深层特征和超像素结构图进行特征融合获取融合特征;基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签;根据所述目标语义标签进行边框回归得到目标检测结果。2.如权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,“对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图”的步骤包括:基于简单线性迭代聚类算法对所述视频帧进行超像素分割;计算超像素分割后得到的每个超像素块的像素平均值;根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。3.如权利要求1所述的基于深度神经网络的目标检测方法,其特征在于,在“基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签”的步骤之前,所述方法还包括:基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练。4.如权利要求3所述的基于深度神经网络的目标检测方法,其特征在于,“基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练”的步骤包括:按照下式所示的方法优化所述条件随机场网络的网络权重:其中,V表示超像素结构图中超像素块集合,E表示相邻超像素块的连接关系集合,eij表示第i个超像素块与第j个超像素块之间的连接关系,x(n)表示第n个融合特征,表示所述第n个融合特征中第i个超像素块对应的权重,表示所述第n个融合特征中第j个超像素块对应的权重,n=1,2,3…,M,M表示融合特征的数量,表示预设的所述x(n)和对应的单元项函数,表示预设的所述x(n)、和对应的二元项函数,Z(x(n),w)表示预设的基于所述x(n)、w的条件推论函数,ci,cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值,li,lj分别表示第i个超像素块、第j个超像素块对应的分类类别,w表示所述条件随机场网络的权重并且w=[wN,wE],w*表示所述w优化后的值,wN表示预设的所述单元项函数的权重,wE表示预设的所述二元项函数的权重,T表示向量或矩阵的转置,Pk(yk,a)表示第k个超像素块属于第a个预设类别的概率分布函数,yk,a表示第k个超像素块属于第a个预设类别的概率,γK表示所述第k个超像素块的颜色信息对应的权重,λ表示预设的非负L2正则化参数,表示2范数的平方。5.一种基于深度神经网络的目标检测系统,其特征在于,所述系统包括:特征提取模块,配置为基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征;...

【专利技术属性】
技术研发人员:龙浩
申请(专利权)人:北京联合大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1