当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于视觉注意力模型的关键帧提取方法和系统技术方案

技术编号:10106769 阅读:229 留言:0更新日期:2014-06-01 21:45
本发明专利技术公开了一种基于视觉注意力模型的关键帧提取方法和系统。其提取方法包括:在空域上,该方法用二项式系数滤波全局对比度进行显著度检测,并且利用自适应阈值对目标区域进行提取。算法不但能较好地保持显著目标区域边界,而且区域内显著度较均匀。然后,在时域上,该方法定义了运动的显著度,通过单应性矩阵对目标运动进行估计,采用关键点代替目标进行显著度检测,之后融合空域显著度的数据,提出基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域。最后,该方法通过显著目标区域降低视频的丰富性,采用结合在线聚类的镜头自适应方法进行关键帧提取。

【技术实现步骤摘要】
一种基于视觉注意力模型的关键帧提取方法和系统
本专利技术涉及视频分析
,特别是涉及一种基于视觉注意力模型的关键帧提取方法和系统。
技术介绍
随着互联网技术的快速发展,我们已经迈入了信息大爆炸时代,各种各样的网络应用和多媒体技术的快速发展得到了广泛的应用。视频作为一种常见的网络信息载体,生动而直观,具有很强的观赏性和表现力,从而在各个领域得到了广泛的应用,使得视频数据海量增长,以著名的视频网站YouTube为例,每分钟由用户上传的视频约有60小时(数据取自2012年1月23日),而且依然保持着增长趋势。如何快速有效地存储、管理和访问海量的视频资源成为当前视频应用领域的一个重要问题。视频因为具有时域相关性,传统方式下,用户掌握一段视频信息需要自始至终浏览完整段视频。无关视频占据用户大量时间的同时,也浪费了大量网络带宽。因此,我们需要对视频添加辅助信息,帮助用户更好地筛选。目前成熟的系统中普遍采用传统的文字标注法,通过人工方式手动分类,用标题、描述等文字赋予视频人工语义。面对海量视频,这项任务不但工作量大,而且不同的人对视频理解不同,其他人无法通过作者的文字标注判断视频是否符合自己的兴趣。因此,人们迫切需要一种自动化的方式对视频进行有效地概括。
技术实现思路
为了解决现有技术的不足,本专利技术首先提供一种基于视觉注意力模型的视频关健帧提取方法,采用该方法能够有效的获得对视频镜头具有很好代表性的关键帧。本专利技术的又一目的是提出一种基于视觉注意力模型的视频关健帧提取系统。为了实现上述目的,本专利技术的技术方案为:一种基于视觉注意力模型的视频关键帧提取方法,包括:在空域上,用二项式系数滤波全局对比度进行显著度检测,并且利用自适应阈值对目标区域进行提取;采用这种方式不但能较好地保持显著目标区域边界,而且区域内显著度较均匀。在时域上,定义运动的显著度,通过单应性矩阵对目标运动进行估计,采用关键点代替目标进行显著度检测,融合空域显著度的数据,提出基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域;通过显著目标区域降低视频的丰富性,采用结合在线聚类的镜头自适应方法进行关键帧提取。一种基于视觉注意力模型的视频关键帧提取系统,该系统包括显著区域提取模块,关键帧提取模块;具体的,所述显著区域提取模块包括:空域显著区域提取模块,用于提取空域上的显著区域;时域关键点显著度获取模块,用于提取时域上的关键点的显著度值;融合模块,用于将空域上的显著区域和时域上的关键点进行融合,并最终获取显著区域。所述关键帧提取模块包括:静态镜头关键帧提取模块,用于静态镜头的关键帧提取;动态镜头关键帧提取模块,用于动态镜头的关键帧提取;镜头自适应模块,用于静态镜头关键帧提取模块和动态镜头关键帧提取模块之间的控制。与现有技术相比,本专利技术的有益效果为:采用本专利技术能够自动的对视频进行有地概括,有效的获得对视频镜头具有很好代表性的关键帧。附图说明图1为本专利技术静态镜头的关键帧提取流程图。图2为本专利技术动态镜头的关键帧提取流程图。图3为本专利技术自适应镜头的关键帧提取流程图。具体实施方式下面结合附图对本专利技术作进一步详细的说明。本专利技术公开的一种基于视觉注意力模型的视频关键帧提取方法,具体实施方式如下:首先,在空域上,通过用二项式系数滤波全局对比度进行显著度检测,并且利用自适应阈值对目标区域进行提取,具体方法如下:(11)二项式系数按照杨辉三角构造,N层的归一化因子为2N。选择第四层,因此滤波器系数B4=(1/16)[14641];(12)设I为原刺激强度,为周围刺激强度的均值,为I与B4的卷积;将像素点采用CIELAB颜色空间的向量形式衡量刺激的强弱,刺激的对比度即为两CIELAB向量的欧式距离,因此对于像素点(x,y)的刺激度检测为(13)得到显著度的测量集合Ss=(s11,s12,...,sNM)之后,利用自适应阈值对目标区域进行提取,其中sij(0≤i≤N,0≤j≤M)为像素点(i,j)的显著度,M,N分别为图像的宽度和高度。具体,通过以下方法实现自适应阈值对目标区域进行提取:(21)定义像素点(x,y)全局显著度检测计算式其中A为检测的面积,为原图像经滤波器B4滤波后像素点(x,y)的刺激强度,I(i,j)为像素点(i,j)的原刺激强度,M,N分别为图像的宽度和高度;(22)通过直方图进行运算加速,将原刺激强度I映射到刺激空间中,最终对于用户感受到的刺激的显著度如下所示其中D为刺激在m个最近刺激之间的距离m为人为控制参数,在本实施例中取m为8;(23)通过改变阈值Ts指定前景和背景区域,然后以获得最小的能量函数的阈值作为最优阈值;以Ts为阈值的能量函数的定义如下:其中Sn由公式(2)获得,λ为显著目标能量的权重,在本实施例中取λ=1.0,N为图像的总像素数,f(Ts,Sn)=max(0,sign(Sn-Ts)),V(I,Ts,s)为对周围刺激的相似度的衡量,选择当前Ts下显著点和其8邻域的像素点组成点对Pair进行计算,dist(p,q)为两点之间的空间距离,σ为人为控制参数,在本实施例中取σ=10.0。因此给定一幅图像以及显著度图,通过最小化能量函数对Ts进行估计,当像素点属于显著目标时被标记为1,其余标记为0,参数λ和σ需要事先手工设定。然后,在时域上,定义运动的显著度,通过单应性矩阵对目标运动进行估计,采用关键点代替目标进行显著度检测,之后融合空域显著度的数据,提出基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域,具体方法如下:(31)给定一幅图像,采用实时性好的FAST(FeaturesfromAcceleratedSegmentTest)特征点检测算法获得图像的关键点;(32)给定相邻的两帧图像,采用FLANN(FastLibraryforApproximateNearestNeighbor)进行快速的相关点匹配;(33)用单应性矩阵(HomographyMatrix)H来描述关键点的运动,由于一个H仅仅描述一种运动形式,同一段视频内存在的运动形式是多样的,因此需要多个H对不同的运动进行描述。在本实施例中采用RANSAC算法,通过不断迭代,获得一系列单应性矩阵的估计H={H1,H2,...,Hn};(34)定义关键点的时域显著度为其中Am为运动状态Hm的所有关键点的分布面积,W和H为视频图像的宽度和高度;(35)将空域的显著度值与获取的关键点的时域显著度值进行融合;(36)采用基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域。具体,通过以下方法实现空域的显著度值与获取的关键点的时域显著度值进行融合:(41)定义一个运动显著性的对比度其中关键点时域显著度值St由公式(5)获得,为关键点时域显著度值的均值;(42)运动的显著性应该针对在空域上依然有较强区分度的目标,因此对时域显著度St的统计范围应该有所限制,设pi为St的第i个关键点,则pi应满足其中为空域显著度值均值;(43)定义时域的权重空域的权重将满足(42)的关键点的时域与空域显著度值按权值相加。具体,通过以下方法实现时域显著目标区域提取:将空域的显著关键点p作为种子点,种子区域采用矩形的包围盒B,设bi为包围盒B的四条边,i∈{1,2,3,4}为上下左右的编号,边界扩展本文档来自技高网...
一种基于视觉注意力模型的关键帧提取方法和系统

【技术保护点】
一种基于视觉注意力模型的关键帧提取方法,用于对视频的关键帧进行提取,其特征在于,包括:在空域上,用二项式系数滤波全局对比度进行显著度检测,并且利用自适应阈值对目标区域进行提取;在时域上,定义运动的显著度,通过单应性矩阵对目标运动进行估计,采用关键点代替目标进行显著度检测,融合空域显著度的数据,提出基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域;通过显著目标区域降低视频的丰富性,采用结合在线聚类的镜头自适应方法进行关键帧提取。

【技术特征摘要】
1.一种基于视觉注意力模型的关键帧提取方法,用于对视频的关键帧进行提取,其特征在于,包括:在空域上,用二项式系数滤波全局对比度进行显著度检测,并且利用自适应阈值对目标区域进行提取;在时域上,定义运动的显著度,通过单应性矩阵对目标运动进行估计,采用关键点代替目标进行显著度检测,融合空域显著度的数据,提出基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域;通过显著目标区域降低视频的丰富性,采用结合在线聚类的镜头自适应方法进行关键帧提取;在空域上,通过用二项式系数滤波全局对比度进行显著度检测,并且利用自适应阈值对目标区域进行提取,具体方法如下:(11)二项式系数按照杨辉三角构造,N层的归一化因子为2N;选择第四层,滤波器系数B4=(1/16)[14641];(12)设I为原刺激强度,为周围刺激强度的均值,为I与B4的卷积;将像素点采用CIELAB颜色空间的向量形式衡量刺激的强弱,刺激的对比度即为两CIELAB向量的欧式距离,因此对于像素点(x,y)的刺激度检测为(13)得到显著度的测量集合Ss=(s11,s12,…,sNM)后,利用自适应阈值对目标区域进行提取,其中sij为像素点(i,j)的显著度,0≤i≤N,0≤j≤M,M,N分别为图像的宽度和高度;通过以下方法实现自适应阈值对目标区域进行提取:(21)定义像素点(x,y)全局显著度检测计算式其中A为检测的面积,为原图像经滤波器B4滤波后像素点(x,y)的刺激强度,I(i,j)为像素点(i,j)的原刺激强度,M,N分别为图像的宽度和高度;(22)通过直方图进行运算加速,将原刺激强度I映射到刺激空间中,最终对于用户感受到的刺激的显著度如下所示其中D为刺激在m个最近刺激之间的距离(23)通过改变阈值Ts指定前景和背景区域,然后以获得最小的能量函数的阈值作为最优阈值;以Ts为阈值的能量函数的定义如下:其中Sn由公式(2)获得,λ为显著目标能量的权重,N为图像的总像素数,f(Ts,Sn)=max(0,sign(Sn-Ts)),V(I,Ts,σ)为对周围刺激的相似度的衡量,选择当前Ts下显著点和其8邻域的像素点组成点对Pair进行计算,dist(p,q)为两点之间的空间距离,σ为控制参数。2.根据权利要求1所述的方法,其特征在于,在时域上,定义运动的显著度,通过单应性矩阵对目标运动进行估计,采用关键点代替目标进行显著度检测,之后融合空域显著度的数据,提出基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域,具体方法如下:(31)给定一幅图像,采用实时性好的FAST特征点检测算法获得图像的关键点;(32)给定相邻的两帧图像,采用FLANN进行快速的相关点匹配;(33)用多个单应性矩阵H来描述关键点的运动,采用RANSAC算法,通过不断迭代,获得一系列单应性矩阵的估计H={H1,H2,...,Hn};(34)定义关键点的时域显著度为其中Am为运动状态Hm的所有关键点的分布面积,W和H为视频图像的宽度和高度;(35)采用基于能量函数边界扩展的方法获得包围盒作为时域的显著目标区域。3.根据权利要求2所述的方法,其特征在于,通...

【专利技术属性】
技术研发人员:纪庆革赵杰刘勇
申请(专利权)人:中山大学广州中大南沙科技创新产业园有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1