一种视频处理方法及电子设备技术

技术编号:12654970 阅读:68 留言:0更新日期:2016-01-06 13:13
本发明专利技术公开了一种视频处理方法及电子设备,所述方法包括:从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。

【技术实现步骤摘要】

本专利技术涉及视频处理技术,尤其涉及一种视频处理方法及电子设备
技术介绍
智能终端,如智能手机已成为当今人们工作生活的随身伴侣,用户通过下载和自 行拍摄的方式很容易积累大量的视频。尤其对于配备双目相机的手机,需要存储的数据量 更大。面对容量相对有限的手机存储器,对视频文件的管理成为亟需解决的问题。
技术实现思路
为解决上述技术问题,本专利技术实施例提供了一种视频处理方法及电子设备。 本专利技术实施例提供的视频处理方法包括: 从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运 动特征、局部关键点特征; 基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特 征、基于深度信息的人脸注意力特征、视频段的语义指示特征; 利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到 视频摘要。 本专利技术实施例提供的电子设备包括: 提取单元,用于从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小 波纹理特征、运动特征、局部关键点特征; 第一处理单元,用于基于所述第一特征集,计算得到第二特征集,所述第二特征集 包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征; 第二处理单元,用于利用迭代重加权的线性模型对第二特征集中的各个特征进行 融合处理,从而得到视频摘要。 本专利技术实施例的技术方案中,从视频帧中提取色矩特征、小波纹理特征、运动特 征、局部关键点特征;然后,基于所提取的色矩特征、小波纹理特征、运动特征、局部关键点 特征,计算得到运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特 征;对运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征进行融合 处理,从而得到视频摘要。如此,从原视频中提取出语义相对精炼和重要的视频段,从而有 效减小电子设备中需要保存的数据量,提高电子设备存储器的利用效率和用户体验,也有 利于用户日后从较小量的视频文件中定位到自己最想找到的视频。并且,本专利技术实施例的 技术方案结合了来自视觉模态(visual modality)和文字模态(textual modality)的信 息,能够更有效地捕捉视频内容的高级语义。在人脸注意力特征中结合场景中物体的深度 信息,有利于从更全面的角度掌握高级语义。本专利技术实施例的技术方案不依赖于针对具体 视频类型制定的启发探索式规则,能够适用于较宽泛的视频种类。【附图说明】 图1为本专利技术实施例一的视频处理方法的流程示意图; 图2为本专利技术实施例二的视频处理方法的流程示意图; 图3为本专利技术实施例的视频摘要提取的整体流程图; 图4为本专利技术实施例的计算视频段的语义指示特征的流程图; 图5为本专利技术实施例一的电子设备的结构组成示意图; 图6为本专利技术实施例二的电子设备的结构组成示意图。【具体实施方式】 为了能够更加详尽地了解本专利技术实施例的特点与
技术实现思路
,下面结合附图对本发 明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本专利技术实施例。 在信息爆炸的时代,传统的视频数据浏览与管理方式已面临前所未有的挑战。因 此,为视频用户提供简短且浓缩了原视频中关键信息的视频摘要具有重要的现实意义。视 频摘要通常可分为动态和静态两种类型:动态视频摘要是原视频的缩短版本,其中可以包 含一系列从原长版本提取出的视频段;而静态视频摘要可以由一组从原视频中提取出的关 键帧构成。 传统的视频摘要通过提取视频中的视觉特征或文字特征来产生。然而,这一方向 上的方法大多是采用启发摸索式的规则或简单的文字分析(如基于词频统计)。另外,传统 的采用人脸特征的注意力模型方法仅考虑了检测出的人脸在场景中的平面位置和尺寸等 信息,缺乏对深度信息的使用。 本专利技术实施例的技术方案基于用户的注意力模型、视频的语义信息和视频帧的深 度信息通过迭代重加权的方式对视频段的相对重要性进行估计,从而产生动态视频摘要。 图1为本专利技术实施例一的视频处理方法的流程示意图,如图1所示,所述视频处理 方法包括以下步骤: 步骤101 :从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹 理特征、运动特征、局部关键点特征。 参照图3,首先,从视频帧中提取第一特征集,第一特征集为低级特征集,第一特征 集包括四个低级特征:色矩特征、小波纹理特征、运动特征和局部关键点特征。 下面对第一特征集中的四个低级特征做详细描述。 (1)色矩特征 将一个视频帧在空间上划分为5 X 5 ( -共25个)不重叠的像素块,在每个像素块 上为Lab色彩空间的三个通道分别计算出一阶矩和二阶三阶中心矩。该帧的25个像素块 的色矩即构成该帧的色矩特征向量f^a)。 ⑵小波纹理特征 相似地,一个视频帧被划分为3 X 3 ( -共9个)不重叠的像素块,对每个块的亮度 分量分别进行三级Haar小波分解,进而在水平、垂直和对角线方向上为每一级计算小波系 数的方差。该视频帧的所有小波系数方差即构成本帧的小波纹理特征向量fwt(i)。 (3)运动特征 人眼对视觉内容的变化具有敏感的识别力。基于这一基本原理,将一个视频帧划 分为MXN个非重叠的像素块,每个块含有16 X 16个像素点,并通过运动估计算法计算出运 动矢量v(i,m,η)。MXN个运动矢量即构成本视频帧的运动特征fmv(i)。 (4)局部关键点特征 在语义级视频分析中,基于局部关键点的词袋(bag of features,简称BoF)能够 作为由全局信息计算出的特征的有力补充。因此,利用软加权的局部关键点特征来捕捉显 著区域,该特征基于关键点在一个具有500个视觉词语的词汇表中的重要性而定义。具体 地,第i个视频帧中的关键点由高斯差(Difference of Gaussians,简称DoG)检测器获得, 由尺度不变特征变换(Scale-Invariant Feature Transform,简称SIFT)描述子进行表示, 并被聚类到500个视觉词语中。关键点特征向量fkp(i)被定义为:四近邻下的关键点与视 觉词语的加权相似度。 步骤102 :基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运 动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征。 接下来,基于这些低级特征,进一步计算出高级的视觉和语义特征,称为第二特征 集,包括:运动注意力特征、基于深度信息的人脸注意力特征和视频段的语义指示特征。 接下来,基于以上低级特征,进一步为每一个任意给定的视频段xs(起始于第 ii(s)帧,终止于第i2(s)帧)计算出高级的视觉和语义特征。视频分段由镜头切换检测来 实现。 下面对第二特征集中的各个特征做详细描述。 (1)运动注意力特征 心理学领域对人类注意力的研究为计算机视觉领域的注意力建模奠定了不可或 缺的基础。注意力的认知机制在对人类思维和活动的分析与理解方面十分关键,因而在挑 选原视频中相对重要的内容构成视频摘要的过程中可以起到指导作用。本方案利用运动注 意力模型计算适合于语义分析的高级运动注意力特征。 对于第i个视频帧中的第(m,η)个像素块,设计了一个包含周围5X5个(共25 个)像素块的空间窗和一个包含7个像素块的时间窗,而且这两个窗都以第i帧的第(m本文档来自技高网
...

【技术保护点】
一种视频处理方法,所述方法包括:从视频帧中提取第一特征集,所述第一特征集包括:色矩特征、小波纹理特征、运动特征、局部关键点特征;基于所述第一特征集,计算得到第二特征集,所述第二特征集包括:运动注意力特征、基于深度信息的人脸注意力特征、视频段的语义指示特征;利用迭代重加权的线性模型对第二特征集中的各个特征进行融合处理,从而得到视频摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:董培靳玉茹
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1