多特征融合的新闻视频摘要提取方法技术

技术编号:14547755 阅读:92 留言:0更新日期:2017-02-04 19:04
本发明专利技术提供了一种多特征融合的新闻视频摘要提取方法,其对原始新闻视频利用镜头分割和镜头标定获得新闻视频基本处理单元。就静态视频摘要,对新闻基本处理单元采用角点检测、颜色滤波和形态学分析进行主题字幕检测,再结合人脸识别和聚类获得新闻主要人物信息;就动态视频摘要,对新闻基本处理单元进行静音分析,得到静音段,然后判定每个静音段是否包含主题字幕,如果有,则将其加入到最终的动态摘要序列,反之亦然;从而得到有意义的高语义动态和静态视频摘要。本发明专利技术能获得的静态摘要,可灵活地浏览和组织视频内容;并能获得的动态摘要,包含丰富的多媒体信息能清晰地表达原始视频内容,更具有娱乐性和观赏性。

【技术实现步骤摘要】

本专利技术涉及视频内容理解领域,具体涉及一种多特征融合的新闻视频摘要提取方法
技术介绍
新闻视频是人们获取信息的主要来源之一,其内容涵盖了人们生活中的各个方面,包括体育、娱乐、时事等,受众面广,更新速度快,在日常生活中扮演着不可缺失的角色。面对庞大的新闻视频库,如何高效地组织和浏览新闻视频,如何有效地过滤和定位出最适合,最准确的新闻内容是现阶段新闻视频内容理解领域的一个亟待解决的问题。新闻视频摘要不仅可以显示新闻视频主旨内容,帮助人们快速地浏览新闻内容,还可结合视频标注技术服务于视频检索领域等,具有较高的研究价值。然而由于新闻视频内容主题跨度大,同一个新闻内容在视觉呈现上千差万别,单纯的底层特征分析很难描述新闻视频语义,导致现阶段新闻视频摘要研究仍面临挑战。现存在一些通用的摘要提取专利技术。如专利文献“视频摘要生成方法和视频摘要生成装置(专利公开号:CN103092930A,专利公开日:2013.05.08)”中通过背景建模得到背景模型,再利用预设的分类器判断提取到的运动目标中是否包含人脸,并选取包含人脸的序列成为最终的摘要。该专利技术仅适用于某些领域的视频,如监控视频,对新闻视频摘要获取并不能获得有意义的结果。现有的新闻视频摘要方法主要基于多特征融合,采用音视频信息来表达视频内容。而主题字幕帧包含新闻故事主要人物、新闻事件主题等重要信息,直接显示新闻事件语义信息,是新闻视频摘要领域的研究重点。在文献[1](孟文婷.基于多模态特征融合的新闻视频摘要技术研究.[D].湖北:华中师范大学,2012)中采用多特征融合来分析新闻视频内容,首先通过自适应阈值进行镜头分割,再利用音视频信息进行主持人镜头检测,随后采用边缘特征分析获取新闻视频主题字幕帧,再选取具有主题字幕帧的镜头浓缩为摘要。然而该方法并未有效区分新闻视频中三类文本字幕,导致在仅采用边缘特征的前提下对主题字幕帧的检测效果不佳,同时由于其在选择具有主题字幕帧的镜头时并未考虑音频信息,从而其最终得到的摘要并不友好,不具有观赏性。而文献[2](李小宁.角点检测技术在新闻视频检索中的应用研究[D].沈阳:东北大学,2010)中探讨了角点检测在新闻视频中的应用。它采用角点检测来识别主题字幕帧,但其检测方法也过于单一,最终检测效果并不理想。综合分析文献[1]和文献[2]的不足之处,本专利技术设计了一种基于角点检测、颜色滤波和形态学分析的有效的主题字幕帧检测算法,同时从工程实现角度出发,定义了新闻基本处理单元,方便模块化分析新闻视频。而基于观赏性和实用性考虑,本专利技术也分别设计了静态和动态视频摘要。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种多特征融合的新闻视频摘要方法。根据本专利技术提供的一种多特征融合的新闻视频摘要提取方法,包括如下任一个或任多个步骤:获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;检测主题字幕帧步骤:从新闻视频中提取主题字幕帧;检测静音段步骤:从新闻视频中提取静音段;检测人脸步骤:从新闻视频中提取人脸。优选地,所述新闻基本处理单元是指,一段以主持人镜头出现为开始时刻,中间时段包含内容镜头,并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。优选地,所述获取新闻基本处理单元步骤包括镜头分割步骤,其中,所述镜头分割步骤,包括如下步骤:根据如下计算式得到D(i,j):其中,D(i,j)表示第i帧与第j帧的差异,N表示新闻视频帧灰度级的数量,fi,k表示第i帧新闻视频中第k级灰度的像素个数,fj,k表示第j帧新闻视频中第k级灰度的像素个数,第i帧与第j帧为前后两帧;i、j为正整数;如果第i帧与第j帧的差异D(i,j)大于指定阈值Tshot,则认为存在镜头边界,将第j帧与设定的主持人模板进行匹配;若第j帧与设定的主持人模板匹配,则将第j帧作为新闻基本处理单元的起始帧。优选地,所述检测主题字幕帧步骤,包括如下步骤:设置新闻视频帧的感兴趣区域;对各个新闻视频帧的感兴趣区域,采用Harris角点检测算子进行角点检测以获取感兴趣区域中的角点,根据角点得到待融合主题字母区域;将各个新闻视频帧的感兴趣区域中满足如下条件的区域提取为蓝色区域:100≤Hue≤2600.33≤Saturation≤1对提取到的蓝色区域提取矩形外轮廓,其中,Hue表示色调,Saturation表示饱和度;将符合如下条件的矩形外轮廓所属的新闻视频帧确认为主题字幕帧,并将不符合如下条件的矩形外轮廓所属的新闻视频帧确认为伪主题字幕帧:Height≥Theight其中,Height表示矩形外轮廓的高度,Theight表示设定的高度阈值,ContourAreamax为各个新闻视频帧中矩形外轮廓中的最大轮廓面积,ContourAreamax-1为各个新闻视频帧中矩形外轮廓中的第二大轮廓面积,Tcontour表示设定的比例阈值;将角点检测得到的待融合主题字母区域与主题字幕帧中矩形外轮廓的内部区域进行图像融合,得到候选主题字幕区域;以矩形结构元素对候选主题字幕区域进行形态学膨胀操作,得到待鉴别文本连通域;将符合如下条件的待鉴别文本连通域认为是伪文本块,将不符合如下条件的待鉴别文本连通域认为是文本块:Areatext≤TareaRatiotext≤Tratio其中,Areatext表示待鉴别文本连通域的面积,Tarea表示设定的面积阈值,Ratiotext表示待鉴别文本连通域的宽高比,Tratio表示设定的宽高比阈值。优选地,所述根据角点得到待融合主题字母区域,具体为:将角点连线划定出待融合主题字母区域。优选地,所述检测静音段步骤,包括如下步骤:采用Hamming窗对新闻视频中的音频进行加窗分帧,得到各帧音频信号;根据如下计算式得到第i帧音频信号的短时能量Ei以及第i帧音频信号的短时过零率Zi:其中,N表示第i帧音频信号中包含的音频采样数目,xi(m)表示第i帧音频信号第m个采样值,xi(m+1)表示第i帧第m+1个采样值,sgn(·)为符号函数;如果一帧音频信号满足如下条件,则认为该帧音频信号为静音帧,否则为非静音帧:Ei≤TeZi≤Tz其中,Te表示设定的短时能量阈值,Tz表示设定的短时过零率阈值。优选地,所述检测人脸步骤包括如下步骤:对新闻视频,采用Viola-Jones人脸检测算法,结合跨平台计算机视觉库OpenCV中训练好的分类器haarcascade_frontalface_atl/xml提取积分图像,计算Haar-like特征,进而利用跨平台计算机视觉库OpenCV中的cvHaarDetectObjects函数在新闻视频中检测人脸对象。优选地,执行检测静音段步骤得到静音段,对静音段执行检测主题字幕帧步骤,仅在静音段对应的视频帧中包含主题字幕帧的情况下,将静音段对应的视频帧加入动态摘要序列。与现有技术相比,本专利技术具有如下本文档来自技高网
...

【技术保护点】
一种多特征融合的新闻视频摘要提取方法,其特征在于,包括如下任一个或任多个步骤:获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;检测主题字幕帧步骤:从新闻视频中提取主题字幕帧;检测静音段步骤:从新闻视频中提取静音段;检测人脸步骤:从新闻视频中提取人脸。

【技术特征摘要】
1.一种多特征融合的新闻视频摘要提取方法,其特征在于,包括如下任一个或
任多个步骤:
获取新闻基本处理单元步骤:从新闻视频中提取新闻基本处理单元;
检测主题字幕帧步骤:从新闻视频中提取主题字幕帧;
检测静音段步骤:从新闻视频中提取静音段;
检测人脸步骤:从新闻视频中提取人脸。
2.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,
所述新闻基本处理单元是指,一段以主持人镜头出现为开始时刻,中间时段包含内容镜
头,并以下一个主持人镜头出现的开始时刻作为结束时刻的视频片段。
3.根据权利要求2所述的多特征融合的新闻视频摘要提取方法,其特征在于,
所述获取新闻基本处理单元步骤包括镜头分割步骤,其中,所述镜头分割步骤,包括如
下步骤:
根据如下计算式得到D(i,j):
D(i,j)=Σk=1N|fi,k-fj,k|]]>其中,D(i,j)表示第i帧与第j帧的差异,N表示新闻视频帧灰度级的数量,fi,k表
示第i帧新闻视频中第k级灰度的像素个数,fj,k表示第j帧新闻视频中第k级灰度的像
素个数,第i帧与第j帧为前后两帧;i、j为正整数;
如果第i帧与第j帧的差异D(i,j)大于指定阈值Tshot,则认为存在镜头边界,将第j帧
与设定的主持人模板进行匹配;若第j帧与设定的主持人模板匹配,则将第j帧作为新
闻基本处理单元的起始帧。
4.根据权利要求1所述的多特征融合的新闻视频摘要提取方法,其特征在于,
所述检测主题字幕帧步骤,包括如下步骤:
设置新闻视频帧的感兴趣区域;
对各个新闻视频帧的感兴趣区域,采用Harris角点检测算子进行角点检测以获取感
兴趣区域中的角点,根据角点得到待融合主题字母区域;
将各个新闻视频帧的感兴趣区域中满足如下条件的区域提取为蓝色区域:
100≤Hue≤260
0.33≤Saturation≤1
对提取到的蓝色区域提取矩形外轮廓,其中,Hue表示色调,Saturation表示饱和度;
将符合如下条件的矩形外轮廓所属的新闻视频帧确认为主题字幕帧,并将不符合如
下条件的矩形外轮廓所属的新闻视频帧确认为伪主题字幕帧:
Height≥TheightContourAreamaxContourAreamax-1≥Tcontour]]>其中,Height表示矩形外轮廓的高度,Theight表示设定的高度阈值,ContourAreamax为各个新闻视频帧中矩形外轮廓中的最大轮廓面积,ContourAreamax-1为各个新闻视频帧

【专利技术属性】
技术研发人员:蒋兴浩孙锬锋王娟姜华郁聪
申请(专利权)人:上海交通大学上海神州数码有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1