视频中的广告定位方法、装置和电子设备制造方法及图纸

技术编号:32182787 阅读:14 留言:0更新日期:2022-02-08 15:45
本申请公开了一种视频中的广告定位方法、装置和电子设备。所述视频中的广告定位方法包括:获取待检测视频;从所述待检测视频中分离出音频数据;对所述音频处理进行压缩、解压和采样以获得脉冲编码调制音频数据;对所述脉冲编码调制音频数据进行在时域上的能量统计以标记并删除所述脉冲编码调制音频数据中的无效片段;对删除无效片段后的所述脉冲编码调制音频数据进行基于能量统计的过0分析以将所述脉冲编码调制音频数据划分为多个语音片段;对所述各个语音片段进行基于傅里叶变换的频域变换和特征提取以获得各个语音片段的特征向量集合;以及,基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告。于广告。于广告。

【技术实现步骤摘要】
视频中的广告定位方法、装置和电子设备


[0001]本申请涉及广告监测领域,且更为具体地,涉及一种视频中的广告定位方法、装置和电子设备。

技术介绍

[0002]随着经济和技术的发展,各种类型的广告(包括传统媒体广告、户外广告、互联网广告)数量激增,这对广告监管提供了新的挑战。
[0003]例如,在传统媒体广告中,特别是电视和广播节目中的广告,都是以视频加音频的方式呈现的,每天24个小时的音视频节目中,通常会包含几百条广告信息。为了进行音视频广告的监控,就需要将录制的特定频道的节目中的广告片段识别出来并进行分析和监管。
[0004]如果采用人工的方式进行分离,即便通过快进的方式,效率也是非常低的。因此,期待一种用于视频中的广告定位方案。

技术实现思路

[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种视频中的广告定位方法、装置和电子设备,其首先从待检测视频中分离出音频数据并基于音频数据的声谱图来获得音频数据的特征向量集合,并基于所述音频数据的各个语音片段的特征向量集合来确定各个语音片段是否属于广告,通过这样的方式,自动地且智能地实现视频中的广告定位和分离。
[0006]根据本申请的一个方面,提供了一种视频中的广告定位方法,其包括:
[0007]获取待检测视频;
[0008]从所述待检测视频中分离出音频数据;
[0009]对所述音频处理进行压缩、解压和采样以获得脉冲编码调制音频数据;
[0010]对所述脉冲编码调制音频数据进行在时域上的能量统计以标记并删除所述脉冲编码调制音频数据中的无效片段;
[0011]对删除无效片段后的所述脉冲编码调制音频数据进行基于能量统计的过0分析以将所述脉冲编码调制音频数据划分为多个语音片段;
[0012]对所述各个语音片段进行基于傅里叶变换的频域变换和特征提取以获得各个语音片段的特征向量集合;以及
[0013]基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告。
[0014]在根据本申请的视频中的广告定位方法中,从所述待检测视频中分离出音频数据,包括:对所述待检测视频进行解复用和解码计算以提取出所述待检测视频中的音频数据。
[0015]在根据本申请的视频中的广告定位方法中,对所述脉冲编码调制音频数据进行在时域上的能量统计以标记并删除所述脉冲编码调制音频数据中的无效片段,包括:计算所
述脉冲编码调制音频数据在每个预定时间片段的声音平均能量强度,所述预定时间片段为100ms;以及,基于所述声音平均能量强度与预设阈值之间的比较,标记所述脉冲编码调制音频数据中的无效片段,所述无效片段包括无节目片段、长时间静音片段和电台电视台休息片段。
[0016]在根据本申请的视频中的广告定位方法中,基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告,包括:将所述各个语音片段的特征向量集合与样本库中的特征向量集合进行比较;以及,响应于所述各个语音片段的特征向量集合中与所述样本库中的特征向量集合连续匹配的特征向量的数量大于预设阈值,确定所述待检测视频中哪些语音片段属于广告。
[0017]在根据本申请的视频中的广告定位方法中,基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告,包括:将所述各个语音片段的特征向量集合通过双向长短期记忆模型和分类器以获得各个语音片段属于广告的概率;以及,基于所述各个语音片段属于广告的概率与预设阈值之间的比较,确定所述待检测视频中哪些语音片段属于广告。
[0018]在根据本申请的视频中的广告定位方法中,将所述特征向量集合通过双向长短期记忆模型和分类器以获得各个语音片段属于广告的概率,包括:
[0019]训练阶段,包括:
[0020]将所述各个语音片段的特征向量集合通过双向长短期记忆模型以获得各个语音片段的编码特征向量集合;
[0021]从所述编码特征向量集合中获取节目起始片段和节目结束片段对应的编码特征向量作为参考特征向量;
[0022]计算所述参考特征向量与所述编码特征向量集合中各个编码特征向量之间的相似度以获得与每个语音片段中各个语音子片段对应的(编码特征向量,相似度)的键值对和与每个语音片段的整体对应的相似度向量;
[0023]将所述编码特征向量集合中的每个编码特征向量输入分类器,以从所述分类器的最后一层全连接层得到每个所述编码特征向量对应的解码特征向量;
[0024]计算所述解码特征向量和与其对应的所述编码特征向量之间的第一交叉熵值和所述解码特征向量和与其对应的相似度之间的第二交叉熵值,并计算所述第一交叉熵函数值和所述第二交叉熵值之间的加权和作为所述特征向量的加权交叉熵值,以获得由每个所述编码特征向量对应的加权交叉熵值组成的交叉熵向量;以及
[0025]计算所述相似度向量与所述交叉熵向量之间的距离作为损失函数值来训练所述分类器和所述双向长短期记忆模型;
[0026]推断阶段,包括:
[0027]将所述每个语音片段对应的特征向量集合输入经训练阶段训练完成的所述双向长短期记忆模型以获得基于上下文的编码特征向量;以及
[0028]将所述基于上下文的编码特征向量输入经训练阶段训练完成的所述分类器以获得所述各个语音片段属于广告的概率。
[0029]在根据本申请的视频中的广告定位方法中,计算所述参考特征向量与所述编码特征向量集合中各个编码特征向量之间的相似度,包括:计算所述参考特征向量与所述编码
特征向量集合中各个编码特征向量之间的L2距离作为所述相似度。
[0030]在根据本申请的视频中的广告定位方法中,计算所述参考特征向量与所述编码特征向量集合中各个编码特征向量之间的相似度,包括:计算所述参考特征向量与所述编码特征向量集合中各个编码特征向量之间的余弦距离作为所述相似度。
[0031]在根据本申请的视频中的广告定位方法中,将所述基于上下文的编码特征向量输入经训练阶段训练完成的所述分类器以获得所述各个语音片段属于广告的概率,包括:使用所述分类器的多个全连接层对所述基于上下文的编码特征向量进行全连接编码以获得分类特征向量;以及,将所述分类特征向量输入Softmax分类函数以获得所述语音片段属于广告的概率。
[0032]根据本申请的另一方面,提供了一种视频中的广告定位装置,其包括:
[0033]视频流获取模块,英语获取待检测视频;
[0034]音频分离模块,用于从所述待检测视频中分离出音频数据;
[0035]格式转化模块,用于对所述音频处理进行压缩、解压和采样以获得脉冲编码调制音频数据;
[0036]无效片段处理模块,用于对所述脉冲编码调制音频数据进行在时域上的能量统计以标记并删除所述脉冲编码调制音频数据中的无效片段;
[0037]语音片段切分模块,用于对删除无效片段后的所述脉冲编码调制音频数据进行基于能量统计的过0分析以将所述脉冲编码调制音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频中的广告定位方法,其特征在于,包括:获取待检测视频;从所述待检测视频中分离出音频数据;对所述音频处理进行压缩、解压和采样以获得脉冲编码调制音频数据;对所述脉冲编码调制音频数据进行在时域上的能量统计以标记并删除所述脉冲编码调制音频数据中的无效片段;对删除无效片段后的所述脉冲编码调制音频数据进行基于能量统计的过0分析以将所述脉冲编码调制音频数据划分为多个语音片段;对所述各个语音片段进行基于傅里叶变换的频域变换和特征提取以获得各个语音片段的特征向量集合;以及基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告。2.根据权利要求1所述的视频中的广告定位方法,其中,从所述待检测视频中分离出音频数据,包括:对所述待检测视频进行解复用和解码计算以提取出所述待检测视频中的音频数据。3.根据权利要求2所述的视频中的广告定位方法,其中,对所述脉冲编码调制音频数据进行在时域上的能量统计以标记并删除所述脉冲编码调制音频数据中的无效片段,包括:计算所述脉冲编码调制音频数据在每个预定时间片段的声音平均能量强度,所述预定时间片段为100ms;以及基于所述声音平均能量强度与预设阈值之间的比较,标记所述脉冲编码调制音频数据中的无效片段,所述无效片段包括无节目片段、长时间静音片段和电台电视台休息片段。4.根据权利要求3所述的视频中的广告定位方法,其中,基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告,包括:将所述各个语音片段的特征向量集合与样本库中的特征向量集合进行比较;以及响应于所述各个语音片段的特征向量集合中与所述样本库中的特征向量集合连续匹配的特征向量的数量大于预设阈值,确定所述待检测视频中哪些语音片段属于广告。5.根据权利要求3所述的视频中的广告定位方法,其中,基于所述各个语音片段的特征向量集合确定所述待检测视频中哪些语音片段属于广告,包括:将所述各个语音片段的特征向量集合通过双向长短期记忆模型和分类器以获得各个语音片段属于广告的概率;以及基于所述各个语音片段属于广告的概率与预设阈值之间的比较,确定所述待检测视频中哪些语音片段属于广告。6.根据权利要求5所述的视频中的广告定位方法,其中,将所述特征向量集合通过双向长短期记忆模型和分类器以获得各个语音片段属于广告的概率,包括:训练阶段,包括:将所述各个语音片段的特征向量集合通过双向长短期记忆模型以获得各个语音片段的编码特征向量集合;从所述编码特征向量集合中获取节目起始片段和节目结束片段对应的编码特征向量作为参考特征向量;
计算所述参考特征向量与所述编码特征向量集合中各个编码特征向量之间的相似度以获得与每个语音片段中各个语音子片段对应的(编码特征向量,相...

【专利技术属性】
技术研发人员:朱远超
申请(专利权)人:浙江省民营经济发展中心浙江省广告监测中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1