基于深度神经网络的目标检测方法、系统及装置制造方法及图纸

技术编号：21454615 阅读：25 留言：0更新日期：2019-06-26 04:59

本发明专利技术公开了一种基于深度神经网络的目标检测方法、系统及装置，包括：基于特征学习网络提取待测视频中视频帧的不同尺度的深层特征；对视频帧进行超像素分割获取超像素结构图；对深层特征和超像素结构图进行特征融合获取融合特征；基于条件随机场网络并且根据融合特征进行目标语义分类得到目标语义标签；根据目标语义标签进行边框回归得到目标检测结果。本发明专利技术可以精确检测视频中背景复杂、密度高、目标小的目标，尤其适用于针对航拍视频的目标识别任务。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度神经网络的目标检测方法、系统及装置
本专利技术涉及计算机视觉
，具体涉及一种基于深度神经网络的目标检测方法、系统及装置。
技术介绍
近几年，目标检测技术引起人们的极大关注，并在众多领域取得广泛的应用，但是基于航拍影像的目标检测任务仍然面临很多挑战。首先，大多数航空影像都是垂直或倾斜地在高空拍摄获取，所以图像背景从地面拍摄的自然景观图像更混乱。例如，在航拍影像中检测车辆时，一些类似的物体，如屋顶设备和变电站箱可能导致误报检测。其次，在广阔的视野拍摄影像时，航拍影像中的物体非常小、且密度高于自然场景影像。最后，缺乏大规模和良好的注释数据集，这限制了训练网络的检测性能。目前，对航拍影像的目标检测方法大多基于滑动窗口搜索和浅层学习的特征，但是由于该方法不能从航拍影像中获取检测对象全面的信息，所以其应用十分有限，并导致其在不同任务的监测结果的不一致性。例如，基于R-CNN的目标检测方法，虽然卷积神经网络具有可以学习强大的层次结构功能，但是它们用于在航拍影像中对象检测任务时，由于该网络执行多个最大化和下采样操作，会导致信号下采样问题和相对较弱的空间描述。另一方面，由于航拍设备的高度多变和多角度旋转，航拍影像中的物体通常具有小尺寸和多尺度和形状的变形，这本质上限制了卷积神经网络的空间描述能力。
技术实现思路
本专利技术的目的是提供一种基于深度神经网络的目标检测方法、系统及装置，能够检测视频中背景复杂、密度高、目标小的目标，提高目标检测的精度。为达成上述目的，本专利技术的第一方面，提供了一种基于深度神经网络的目标检测方法，所述方法包括：基于预设的特征学习网络提取...

【技术保护点】
1.一种基于深度神经网络的目标检测方法，其特征在于，所述方法包括：基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征；对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图；对所述深层特征和超像素结构图进行特征融合获取融合特征；基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签；根据所述目标语义标签进行边框回归得到目标检测结果。

【技术特征摘要】
1.一种基于深度神经网络的目标检测方法，其特征在于，所述方法包括：基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征；对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图；对所述深层特征和超像素结构图进行特征融合获取融合特征；基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签；根据所述目标语义标签进行边框回归得到目标检测结果。2.如权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，“对所述视频帧进行超像素分割获取所述视频帧对应的超像素结构图”的步骤包括：基于简单线性迭代聚类算法对所述视频帧进行超像素分割；计算超像素分割后得到的每个超像素块的像素平均值；根据每个超像素块与其它各超像素块之间基于像素平均值表示的概率依赖关系获取超像素结构图。3.如权利要求1所述的基于深度神经网络的目标检测方法，其特征在于，在“基于预设的条件随机场网络并且根据所述融合特征进行目标语义分类得到目标语义标签”的步骤之前，所述方法还包括：基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练。4.如权利要求3所述的基于深度神经网络的目标检测方法，其特征在于，“基于预设的融合特征并且采用最大条件似然法对所述条件随机场网络进行网络训练”的步骤包括：按照下式所示的方法优化所述条件随机场网络的网络权重：其中，V表示超像素结构图中超像素块集合，E表示相邻超像素块的连接关系集合，eij表示第i个超像素块与第j个超像素块之间的连接关系，x(n)表示第n个融合特征，表示所述第n个融合特征中第i个超像素块对应的权重，表示所述第n个融合特征中第j个超像素块对应的权重，n＝1，2，3…，M，M表示融合特征的数量，表示预设的所述x(n)和对应的单元项函数，表示预设的所述x(n)、和对应的二元项函数，Z(x(n)，w)表示预设的基于所述x(n)、w的条件推论函数，ci，cj分别表示第i个超像素块、第j个超像素块对应的初始分类概率值，li，lj分别表示第i个超像素块、第j个超像素块对应的分类类别，w表示所述条件随机场网络的权重并且w＝[wN，wE]，w*表示所述w优化后的值，wN表示预设的所述单元项函数的权重，wE表示预设的所述二元项函数的权重，T表示向量或矩阵的转置，Pk(yk，a)表示第k个超像素块属于第a个预设类别的概率分布函数，yk，a表示第k个超像素块属于第a个预设类别的概率，γK表示所述第k个超像素块的颜色信息对应的权重，λ表示预设的非负L2正则化参数，表示2范数的平方。5.一种基于深度神经网络的目标检测系统，其特征在于，所述系统包括：特征提取模块，配置为基于预设的特征学习网络提取待测视频中视频帧的不同尺度的深层特征；...

【专利技术属性】
技术研发人员：龙浩，
申请(专利权)人：北京联合大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人