一种基于字幕视频的镜头边界检测与关键帧提取方法技术

技术编号:28943245 阅读:9 留言:0更新日期:2021-06-18 21:51
本公开提供一种基于字幕视频的镜头边界检测与关键帧提取方法,包括对视频流抽取视频帧序列,对其进行粗筛选,将粗筛选的每个帧图像分为上下两个区域;对每个帧图像的上区域提取图像特征,并计算相邻两帧之间的图像特征的余弦相似性,根据相似性确定表示场景内容变换的关键帧,得到第一目标关键视频帧序列;对每个帧图像的下区域提取文字区域,将存在文字区域的帧序列提取出来,并按照顺序排列,依次比较相邻帧文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧,获得第二目标关键视频帧序列;将两者进行整合,获得最终的目标关键视频帧序列。能够在消除冗余信息的同时极大利用文本信息达到更精确的效果。

【技术实现步骤摘要】
一种基于字幕视频的镜头边界检测与关键帧提取方法
本公开属于图像及视频处理
,具体涉及一种基于字幕视频的镜头边界检测与关键帧提取方法。
技术介绍
近年来,视频内容分析是计算机视觉领域中一大热门研究内容,可应用在不同的场景,如安防、影视、情报等。在大数据时代,作为视频处理的关键技术,视频内容分析将是实现大数据在各个应用领域落地的重要基础建设,而镜头边界检测和关键帧提取是其中不可或缺的一部分。新闻视频、影视视频以及纪实记录片多为配有字幕的视频,字幕作为解释和阐述视频内容的文本信息,包含了大量的有用信息,因此关键帧中必须包含这些重要的字幕信息。相较于无字幕的视频,字幕视频的视频序列变化主要包含如下特征:视频场景的变化与字幕变化不是同步的,即多个场景的变化可能伴随同一句字幕,而同一场景可能配有多句字幕。目前镜头边界检测以及关键帧提取算法多是基于比较视频序列之间的帧特征差异来检测镜头变化,通过提取视频帧序列的特征,然后利用这些特征量建立评判准则并设定阈值,以此判断场景是否发生变化,从而实现镜头边界检测与关键帧提取。这些算法在无字幕的视频中已经能取得不错的效果,但是由于在字幕视频中,字幕通常在视频场景中占用的面积较小,字幕变化与场景变换往往不同步,仅仅依靠基于视频序列之间的特征差异,往往会漏检带有重要信息的字幕帧,而降低镜头分割的阈值则会增加关键帧提取的冗余。
技术实现思路
本公开旨在至少解决现有技术中存在的技术问题之一,提供一种基于字幕视频的镜头边界检测与关键帧提取方法。本公开的一个方面,提供一种基于字幕视频的镜头边界检测与关键帧提取方法,所述方法包括以下步骤:对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号;将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域;分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,并计算相邻两帧图像之间的图像特征的余弦相似性,设定阈值,如果相似性值大于阈值,则将第二帧作为镜头边界,并标记为表示场景内容变换的关键帧,得到第一目标关键视频帧序列;分别对每个所述帧图像的下区域,采用EAST算法检测并提取文字区域,将存在文字区域的帧序列提取出来,并将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧;以及,对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,获得第二目标关键视频帧序列;将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合,获得最终的目标关键视频帧序列。在一些可选地实施方式中,所述对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,包括:每隔预设时长从所述视频流中抽取一帧图像,获得所述视频帧序列;计算所述视频帧序列中的相邻两帧图像的差值矩阵;根据所述差值矩阵包括的非零像素值,计算判定阈值;根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧。在一些可选地实施方式中,所述计算所述视频帧序列中的相邻两帧图像的差值矩阵,包括:对抽取的帧图像进行灰度化处理,并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理;按顺序对相邻帧图像进行灰度差值运算,即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减,得到当前帧图像对应的差值矩阵。在一些可选地实施方式中,所述根据所述差值矩阵包括的非零像素值,计算判定阈值,包括:计算所述差值矩阵包括的所有非零像素值的平均值及方差;确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量;根据所述第一数量和所述第二数量,通过如下公式(1)计算所述判定阈值:T=1.85×sd+mean(1)其中,T为所述判定阈值,mean为所述第一数量,sd为所述第二数量。在一些可选地实施方式中,所述根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧,包括:若非零像素值的数量大于判定阈值,则将当前帧图像确定为视频关键帧;否则,确定当前帧图像不是视频关键帧。在一些可选地实施方式中,所述分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,包括:将所述帧图像尺寸缩小至224×224;采用ResNet50为骨干网络,提取出五个卷积层的特征,分别标记为C_1,C_2,C_3,C_4,C_5,尺寸分别为64×56×56,256×56×56,512×28×28,1024×14×14,2048×7×7;对C_1-C_5进行处理,输出四种特征图P_1,P_2,P_3,P_4,具体尺寸分别为:256×56×56,256×28×28,256×14×14,256×14×14;将C_5降维到256,经过卷积3×3处理,输出得到P_4,将P_4上采样后与降维处理过的C_4相加,再经过3×3卷积处理,得到P_3,依次类推,得到最终融合特征P_1。在一些可选地实施方式中,所述计算相邻两帧图像之间的图像特征的余弦相似性,包括:将所述相邻两帧图像的融合特征分别表示为X,Y,根据如下公式(2)计算所述余弦相似度:在一些可选地实施方式中,所述将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧,包括:将提取出来的视频帧序列按照顺序排列,提取里面长度最长的文字区域;依次比较相邻两帧图像的文本行长度,如果相差大于40像素,则均判别为关键帧。本公开的另一个方面,提供一种电子设备,包括:一个或多个处理器;一个存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据前文记载的所述的方法。本公开的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现根据前文记载的所述的方法。本公开的基于字幕视频的镜头边界检测与关键帧提取方法具有下述优点:1)、现有关键帧提取技术都是基于视频帧场景目标变化来进行镜头分割和关键帧提取,并未考虑字幕在视频中的切换。本公开则通过将视频帧流进行分块处理,完善了关键帧中字幕信息的完整性。2)、本公开通过两个深度神经网络模型分别提取视频场景特征和文字特征,提高了关键帧提取的正确性。3)、本公开采用粗筛选和精细筛选的模式,降低处理复杂度。附图说明图1为本公开一实施例中电子设备的组成示意框图;图2为本公开另一实施例的一种基于字幕视频的镜头边界检测与关键帧提取方法的流程图。具体实施方式为使本领域技术人员更好地理解本公开的技术方案,下本文档来自技高网...

【技术保护点】
1.一种基于字幕视频的镜头边界检测与关键帧提取方法,其特征在于,所述方法包括以下步骤:/n对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号;/n将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域;/n分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,并计算相邻两帧图像之间的图像特征的余弦相似性,设定阈值,如果相似性值大于阈值,则将第二帧作为镜头边界,并标记为表示场景内容变换的关键帧,得到第一目标关键视频帧序列;/n分别对每个所述帧图像的下区域,采用EAST算法检测并提取文字区域,将存在文字区域的帧序列提取出来,并将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧;以及,对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,获得第二目标关键视频帧序列;/n将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合,获得最终的目标关键视频帧序列。/n

【技术特征摘要】
1.一种基于字幕视频的镜头边界检测与关键帧提取方法,其特征在于,所述方法包括以下步骤:
对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,并将所述粗筛选的视频帧序列按在所述视频流的序号进行标号;
将所述粗筛选的视频帧序列中的每个帧图像分为上下两个区域;
分别对每个所述帧图像的上区域,基于FPN网络提取图像特征,并计算相邻两帧图像之间的图像特征的余弦相似性,设定阈值,如果相似性值大于阈值,则将第二帧作为镜头边界,并标记为表示场景内容变换的关键帧,得到第一目标关键视频帧序列;
分别对每个所述帧图像的下区域,采用EAST算法检测并提取文字区域,将存在文字区域的帧序列提取出来,并将提取出来的视频帧序列按照顺序排列,依次比较相邻帧图像文字区域的长度,如果长度变化相差预设数量的像素以上,则均判别为关键帧;以及,对短文本帧再提取与长文本行所在帧同样位置的区域,计算两区域的相似性;若不相似则两帧都作为关键帧,若相似,则取前一帧为关键帧,获得第二目标关键视频帧序列;
将所述第一目标关键视频帧序列和所述第二目标关键视频帧序列进行整合,获得最终的目标关键视频帧序列。


2.根据权利要求1所述的方法,其特征在于,所述对视频流抽取视频帧序列,基于帧间差异特征对所述视频帧序列进行粗筛选,包括:
每隔预设时长从所述视频流中抽取一帧图像,获得所述视频帧序列;
计算所述视频帧序列中的相邻两帧图像的差值矩阵;
根据所述差值矩阵包括的非零像素值,计算判定阈值;
根据所述判定阈值,确定当前帧图像是否为粗筛选视频关键帧。


3.根据权利要求2所述的方法,其特征在于,所述计算所述视频帧序列中的相邻两帧图像的差值矩阵,包括:
对抽取的帧图像进行灰度化处理,并用高斯滤波器对提取的每一帧图像对应的灰度图进行平滑处理;
按顺序对相邻帧图像进行灰度差值运算,即将当前帧图像对应的灰度图与上一帧图像对应的灰度图中对应位置处的像素灰度值相减,得到当前帧图像对应的差值矩阵。


4.根据权利要求3所述的方法,其特征在于,所述根据所述差值矩阵包括的非零像素值,计算判定阈值,包括:
计算所述差值矩阵包括的所有非零像素值的平均值及方差;
确定所述差值矩阵中像素值大于所述平均值的非零像素值的第一数量,及像素值大于所述方差的非零像素值的第二数量;
根据所述第一数量和所述第二数量,通过如下公式(1)计算所...

【专利技术属性】
技术研发人员:熊荔王美涵白立飞刘灵芝
申请(专利权)人:中国电子科技集团公司信息科学研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1