一种基于音视频结合的内容检测方法技术

技术编号：15522807 阅读：108 留言：0更新日期：2017-06-04 11:44

本发明专利技术提供了一种基于音视频结合的内容检测方法，包括：从待测视频中提取出与图像同步的音频；检测出音频中的所有静音段；对待测视频中与各个静音段同步的各组连续的图像进行镜头切变检测，在有镜头切变的两相邻图像之间插入标记，提取出相邻标记之间时长小于时长阈值的视频段；将视频段分割成若干镜头，提取每个镜头的关键帧，使用无监督神经网络算法将关键帧进行分类，含有广告帧的视频段为广告片段。本方法结合广告分界点在音频和图像上的特征，得到疑似广告片段，通过无监督神经网络算法进行分类，减少了算法处理的数据量，简化了算法的复杂度，同时还提高了检测的准确性，无需建立视频的样本数据库，通用性高。

Content detection method based on combination of audio and video

The invention provides a detection method, combined with audio and video based content includes: from the extracted image and audio video synchronization; detect all mute audio segment; shot detection were synchronized with the each segment mute consecutive images are detected in the video, the insertion mark between two adjacent the image shot, extracted between adjacent markers when the length is less than the duration threshold video segment; the video segment is divided into a plurality of lenses, each shot key frame extraction, using unsupervised neural network algorithm to classify the video key frame, containing the frame for the advertisement advertisement. This method combines the demarcation point in advertising audio and image features of suspected advertising fragments are classified by unsupervised neural network algorithm, the algorithm decreases the amount of data processing, simplify the complexity of the algorithm, but also improves the detection accuracy, without the establishment of video sample database, high versatility.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于音视频结合的内容检测方法
本专利技术涉及视频内容检索
，具体涉及一种基于音视频结合的内容检测方法。
技术介绍
随着互联网技术的发展，人们可以方便地获得各种视频资源，同时也吸引了更多的商家在视频中投放广告。用户希望能够跳过视频中的广告部分直接观看自己感兴趣的内容，广告投放方希望能够检测出视频中广告的时长以确保其投资价值。一些视频制作方会在广告和节目之间插入单色帧作为边界，或者插入倒计时标志，这样的视频很容易检测出广告。但这些并不是通用的手段，还有很多视频的广告与节目之间没有明显的边界，因此希望找到一种能够适用于所有片源的检测广告的方法。目前，检测电视广告主要是基于机器学习的方法，通过训练样本数据对视频帧进行分类，从而自动提取出广告部分。基于机器学习的常用检测算法主要有支持向量机、K-means算法、决策树等，用上述机器学习算法来检测广告，首先需要获取数据库中用于训练的各个待测视频的样本数据，而现在视频来源广，数据库中不可能存储所有视频的样本数据，所以对数据库中没有样本的视频无法进行检测；整个视频数据作为上述算法的输入，处理数据量大，算法复杂度高，并不能实现广告的精确分割。
技术实现思路
为解决上述问题，本专利技术提出了一种基于音视频结合的内容检测方法，该方法结合广告分界点分别在音频和图像上的特征，不依赖样本数据即可准确检测出广告片段。本专利技术的具体技术方案如下：一种基于音视频结合的内容检测方法，包括以下步骤：1、从待测视频中提取出与图像同步的音频；2、检测出所述音频中的所有静音段，具体包括：将所述音频分割成连续的无重叠的音频帧，计算每帧的平均能量...

【技术保护点】
一种基于音视频结合的内容检测方法，其特征在于，所述方法包括以下步骤：步骤1、从待测视频中提取出与图像同步的音频；步骤2、检测出所述音频中的所有静音段，具体包括：将所述音频分割成连续的无重叠的音频帧，计算每帧的平均能量，若平均能量小于预设能量阈值，该音频帧为静音帧，计算连续静音帧的时长，时长大于预设长度阈值的为静音段；步骤3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测，在有镜头切变的两相邻图像之间插入标记，计算两两相邻标记之间的时长，从待测视频中提取出时长小于预设时长阈值的视频段；步骤4、将步骤3得到的视频段分割成若干镜头，提取每个镜头的关键帧，使用无监督神经网络算法对关键帧进行分类，分类结果为广告的关键帧所在的视频段为广告片段，计算广告片段的时长为广告播放时长。

【技术特征摘要】
1.一种基于音视频结合的内容检测方法，其特征在于，所述方法包括以下步骤：步骤1、从待测视频中提取出与图像同步的音频；步骤2、检测出所述音频中的所有静音段，具体包括：将所述音频分割成连续的无重叠的音频帧，计算每帧的平均能量，若平均能量小于预设能量阈值，该音频帧为静音帧，计算连续静音帧的时长，时长大于预设长度阈值的为静音段；步骤3、对待测视频中与各个静音段同步的各组连续的图像分别进行镜头切变检测，在有镜头切变的两相邻图像之间插入标记，计算两两相邻标记之间的时长，从待测视频中提取出时长小于预设时长阈值的视频段；步骤4、将步骤3得到的视频段分割成若干镜头，提取每个镜头的关键帧，使用无监督神经网络算法对关键帧进行分类，分类结果为广告的关键帧所在的视频段为广告片段，计算广告片段的时长为广告播放时长。2.根据权利要求1所述的方法，其特征在于，步骤3中使用颜色直方图法进行镜头切变检测，具体包括：1)计算每帧图像的颜色直方图：其中Hn(i)表示第n帧图像的H分量直方图，H_follown(i)为第n帧图像的H值为i的像素个数，i∈[1,12]，Sn(i)表示第n帧图像的S分量直方图，S_follown(j)为第n帧图像的S值为j的像素个数，j∈[1,5]，Vn(i)表示第n帧图像的V分量直方图，V_follown(k)为第n帧图像的V值为k的像素个数，k∈[1,5]，M×N为第n帧图像的总像素数；2)计算每相邻两帧图像分别在H、S、V三分量的相似性：

【专利技术属性】
技术研发人员：张涛，
申请(专利权)人：南通同洲电子有限责任公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人