一种基于音视频结合的内容检测方法技术

技术编号:15522807 阅读:108 留言:0更新日期:2017-06-04 11:44
本发明专利技术提供了一种基于音视频结合的内容检测方法,包括:从待测视频中提取出与图像同步的音频;检测出音频中的所有静音段;对待测视频中与各个静音段同步的各组连续的图像进行镜头切变检测,在有镜头切变的两相邻图像之间插入标记,提取出相邻标记之间时长小于时长阈值的视频段;将视频段分割成若干镜头,提取每个镜头的关键帧,使用无监督神经网络算法将关键帧进行分类,含有广告帧的视频段为广告片段。本方法结合广告分界点在音频和图像上的特征,得到疑似广告片段,通过无监督神经网络算法进行分类,减少了算法处理的数据量,简化了算法的复杂度,同时还提高了检测的准确性,无需建立视频的样本数据库,通用性高。

Content detection method based on combination of audio and video

The invention provides a detection method, combined with audio and video based content includes: from the extracted image and audio video synchronization; detect all mute audio segment; shot detection were synchronized with the each segment mute consecutive images are detected in the video, the insertion mark between two adjacent the image shot, extracted between adjacent markers when the length is less than the duration threshold video segment; the video segment is divided into a plurality of lenses, each shot key frame extraction, using unsupervised neural network algorithm to classify the video key frame, containing the frame for the advertisement advertisement. This method combines the demarcation point in advertising audio and image features of suspected advertising fragments are classified by unsupervised neural network algorithm, the algorithm decreases the amount of data processing, simplify the complexity of the algorithm, but also improves the detection accuracy, without the establishment of video sample database, high versatility.

【技术实现步骤摘要】
一种基于音视频结合的内容检测方法
本专利技术涉及视频内容检索
,具体涉及一种基于音视频结合的内容检测方法。
技术介绍
随着互联网技术的发展,人们可以方便地获得各种视频资源,同时也吸引了更多的商家在视频中投放广告。用户希望能够跳过视频中的广告部分直接观看自己感兴趣的内容,广告投放方希望能够检测出视频中广告的时长以确保其投资价值。一些视频制作方会在广告和节目之间插入单色帧作为边界,或者插入倒计时标志,这样的视频很容易检测出广告。但这些并不是通用的手段,还有很多视频的广告与节目之间没有明显的边界,因此希望找到一种能够适用于所有片源的检测广告的方法。目前,检测电视广告主要是基于机器学习的方法,通过训练样本数据对视频帧进行分类,从而自动提取出广告部分。基于机器学习的常用检测算法主要有支持向量机、K-means算法、决策树等,用上述机器学习算法来检测广告,首先需要获取数据库中用于训练的各个待测视频的样本数据,而现在视频来源广,数据库中不可能存储所有视频的样本数据,所以对数据库中没有样本的视频无法进行检测;整个视频数据作为上述算法的输入,处理数据量大,算法复杂度高,并不能实现广告的精确分割。
技术实现思路
为解决上述问题,本专利技术提出了一种基于音视频结合的内容检测方法,该方法结合广告分界点分别在音频和图像上的特征,不依赖样本数据即可准确检测出广告片段。本专利技术的具体技术方案如下:一种基于音视频结合的内容检测方法,包括以下步骤:1、从待测视频中提取出与图像同步的音频;2、检测出所述音频中的所有静音段,具体包括:将所述音频分割成连续的无重叠的音频帧,计算每帧的平均能量,若平均能量小于预设能量阈值,该音频帧为静音帧,计算连续静音帧的时长,时长大于预设长度阈值的为静音段;3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测,在有镜头切变的两相邻图像之间插入标记,计算两两相邻标记之间的时长,从待测视频中提取出时长小于预设时长阈值的视频段;4、将步骤3得到的视频段分割成若干镜头,提取每个镜头的关键帧,使用无监督神经网络算法将关键帧进行分类,分类结果为广告的关键帧所在的视频段为广告片段,计算广告片段的时长为广告播出时长。作为本专利技术的进一步改进,步骤3中使用颜色直方图法进行镜头切变检测,具体步骤为:1)计算每帧图像的颜色直方图:其中Hn(i)表示第n帧图像的H分量直方图,H_follown(i)为第n帧图像的H值为i的像素个数,i∈[1,12],Sn(i)表示第n帧图像的S分量直方图,S_follown(i)为第n帧图像的S值为j的像素个数,j∈[1,5],Vn(i)表示第n帧图像的V分量直方图,V_follown(i)为第n帧图像的V值为k的像素个数,k∈[1,5],M×N为第n帧图像的总像素数;2)计算每相邻两帧图像分别在H、S、V三分量的相似性:其中simH(n,n+1)为第n帧与第n+1帧在H分量的相似性,Hn(i)是第n帧的H分量直方图,Hn+1(i)是第n+1帧的H分量直方图,simS(n,n+1)为第n帧与第n+1帧在S分量的相似性,Sn(j)是第n帧的S分量直方图,Sn+1(j)是第n+1帧的S分量直方图,simV(n,n+1)为第n帧与第n+1帧在V分量的相似性,Vn(k)是第n帧的V分量直方图,Vn+1(k)是第n+1帧的V分量直方图;3)计算每相邻两帧的总相似性:其中sim(n,n+1)为第n帧与第n+1帧的总相似度,α、β、γ分别是H、S、V三分量的相似性系数,且α≥β,α≥γ;4)若相邻两帧的总相似性大于预设相似阈值,则确定在这两帧之间有镜头切变。作为本专利技术的进一步改进,步骤4中提取每个镜头的关键帧具体包括:1)计算每个镜头中每个图像在H、S、V三个分量上的图像熵:其中EH(n)是第n帧图像在H分量上的图像熵,hn(i)为第n帧图像的H值为i的像素个数与总像素数的比例,ES(n)是第n帧图像在S分量上的图像熵,sn(j)为第n帧图像的S值为j的像素个数与总像素数的比例,EV(n)是第n帧图像在V分量上的图像熵,vn(k)为第n帧图像的V值为k的像素个数与总像素数的比例;2)计算每个图像的总图像熵为:E(n)=α'×EH(n)+β'×ES(n)+γ'×EV(n)其中E(n)是第n帧的总图像熵,α'、β'、γ'分别是H、S、V三分量的图像熵系数;3)将每个镜头中总图像熵最大的图像作为关键帧提取出来。本专利技术的有益效果:本专利技术方法结合广告分界点分别在音频和图像上的特征,先通过检测同步音频中静音段的位置,初步判断可能的广告分界点,再在可能的分界点附近进行镜头切变检测,将既有镜头切变又是静音段的位置作为初级分界点,提取出相邻初级分界点之间时长接近广告时长的视频段,再将这些视频段进行镜头切割,对每个镜头提取关键帧,使用无监督神经网络算法对关键帧进行分类,分类结果为广告的关键帧所在的视频段即为广告,从而计算出广告时长。本专利技术一步步缩小检测范围,最后通过机器学习算法进行分类,减少了机器学习算法处理的数据量,简化了机器学习算法的复杂度,同时还提高了检测的准确性。使用无监督神经网络算法进行分类,无需建立视频的样本数据库,随时可以检查,通用性高。附图说明图1为本专利技术方法的流程图。具体实施方式本专利技术提出的一种基于音视频结合的内容检测方法,包括以下步骤:1、从待测视频中提取出与图像同步的音频。2、检测出音频中的所有静音段,具体为:将音频分割成连续的无重叠的音频帧,计算每帧的平均能量,若平均能量小于预设能量阈值,该音频帧为静音帧,计算连续静音帧的时长,时长大于预设长度阈值的为静音段。本实施例中将音频分割成15ms的音频帧,能量阈值设为0.01,长度阈值设为1000ms。3、找出与各静音段同步的各组连续的图像,分别将每帧图像投影到HSV颜色空间,计算每帧图像的颜色直方图:其中Hn(i)表示第n帧图像的H分量直方图,H_follown(i)为第n帧图像的H值为i的像素个数,i∈[1,12],Sn(i)表示第n帧图像的S分量直方图,S_follown(i)为第n帧图像的S值为j的像素个数,j∈[1,5],Vn(i)表示第n帧图像的V分量直方图,V_follown(i)为第n帧图像的V值为k的像素个数,k∈[1,5],M×N为第n帧图像的总像素数。计算每相邻两帧图像分别在H、S、V三分量的相似性:其中simH(n,n+1)为第n帧与第n+1帧在H分量的相似性,Hn(i)是第n帧的H分量直方图,Hn+1(i)是第n+1帧的H分量直方图,simS(n,n+1)为第n帧与第n+1帧在S分量的相似性,Sn(j)是第n帧的S分量直方图,Sn+1(j)是第n+1帧的S分量直方图,simV(n,n+1)为第n帧与第n+1帧在V分量的相似性,Vn(k)是第n帧的V分量直方图,Vn+1(k)是第n+1帧的V分量直方图。计算每相邻两帧的总相似性:其中sim(n,n+1)为第n帧与第n+1帧的总相似度,α、β、γ分别是H、S、V三分量的相似性系数,且α≥β,α≥γ。设置相似阈值Hsim,若相邻两帧的总相似性大于相似阈值,则确定在这两帧之间有镜头切变。在有镜头切变的两相邻图像之间插入标记,计算两两相邻标记之间的时长,从待测视频中提取出时长小于本文档来自技高网...
一种基于音视频结合的内容检测方法

【技术保护点】
一种基于音视频结合的内容检测方法,其特征在于,所述方法包括以下步骤:步骤1、从待测视频中提取出与图像同步的音频;步骤2、检测出所述音频中的所有静音段,具体包括:将所述音频分割成连续的无重叠的音频帧,计算每帧的平均能量,若平均能量小于预设能量阈值,该音频帧为静音帧,计算连续静音帧的时长,时长大于预设长度阈值的为静音段;步骤3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测,在有镜头切变的两相邻图像之间插入标记,计算两两相邻标记之间的时长,从待测视频中提取出时长小于预设时长阈值的视频段;步骤4、将步骤3得到的视频段分割成若干镜头,提取每个镜头的关键帧,使用无监督神经网络算法对关键帧进行分类,分类结果为广告的关键帧所在的视频段为广告片段,计算广告片段的时长为广告播放时长。

【技术特征摘要】
1.一种基于音视频结合的内容检测方法,其特征在于,所述方法包括以下步骤:步骤1、从待测视频中提取出与图像同步的音频;步骤2、检测出所述音频中的所有静音段,具体包括:将所述音频分割成连续的无重叠的音频帧,计算每帧的平均能量,若平均能量小于预设能量阈值,该音频帧为静音帧,计算连续静音帧的时长,时长大于预设长度阈值的为静音段;步骤3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测,在有镜头切变的两相邻图像之间插入标记,计算两两相邻标记之间的时长,从待测视频中提取出时长小于预设时长阈值的视频段;步骤4、将步骤3得到的视频段分割成若干镜头,提取每个镜头的关键帧,使用无监督神经网络算法对关键帧进行分类,分类结果为广告的关键帧所在的视频段为广告片段,计算广告片段的时长为广告播放时长。2.根据权利要求1所述的方法,其特征在于,步骤3中使用颜色直方图法进行镜头切变检测,具体包括:1)计算每帧图像的颜色直方图:其中Hn(i)表示第n帧图像的H分量直方图,H_follown(i)为第n帧图像的H值为i的像素个数,i∈[1,12],Sn(i)表示第n帧图像的S分量直方图,S_follown(j)为第n帧图像的S值为j的像素个数,j∈[1,5],Vn(i)表示第n帧图像的V分量直方图,V_follown(k)为第n帧图像的V值为k的像素个数,k∈[1,5],M×N为第n帧图像的总像素数;2)计算每相邻两帧图像分别在H、S、V三分量的相似性:

【专利技术属性】
技术研发人员:张涛
申请(专利权)人:南通同洲电子有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1