一种基于数据增强的视频彩铃分类方法技术

技术编号：32355803 阅读：26 留言：0更新日期：2022-02-20 03:15

一种基于数据增强的视频彩铃分类方法，包括：构造视频彩铃图像数据集：从视频彩铃录屏数据中抽取多张视频帧图像，对每张视频帧图像添加黑边和条形噪声，同时设定若干视频彩铃类别，并标定每张视频帧图像的视频彩铃类别，由所有视频帧图像构成视频彩铃图像数据集；构建视频彩铃分类卷积网络，网络由主干特征提取层、降维层、特征加强层构成，其输入是视频帧图像，输出是视频彩铃类别预测结果，并以视频彩铃图像数据集为训练样本进行训练；从待分类视频彩铃录屏数据中抽取若干图片，然后将抽取图片输入视频彩铃分类卷积网络，最后依据输出结果采用投票机制确定视频彩铃类别。本发明专利技术属于信息技术领域，能快速准确的对视频彩铃录频数据进行内容分类。据进行内容分类。据进行内容分类。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据增强的视频彩铃分类方法

[0001]本专利技术涉及一种基于数据增强的视频彩铃分类方法，属于信息

技术介绍

[0002]视频分类技术是人工智能领域的一个重要领域，其在图像分类的技术上被进一步延伸到视频数据。目前图视频数据在互联网上无处不在，这促进了算法的开发，这些算法可以为各种应用程序分析图视频数据的语义内容，包括检索和分类识别。近年来，卷积神经网络(Convolutional Neural Network，CNN)被证明为一种有效理解图视频内容的模型，其可以学习强大且可解释的图像特征。由于计算机设备算力的提升可以将网络扩展到数千万个参数和支持学习过程的海量标记数据集，CNN在图视频分类、分割、检测、检索等领域都获得了最先进的结果。
[0003]视频彩铃是长期演进语音承载(Voice Over Long
‑
Term Evolution，VOLTE)的特色业务，将“听的彩铃”演进成“看的彩铃”。用户在VOLTE网络下拨打语音电话或视频电话，呼叫接通前会看到一段视频内容。视频彩铃用户可以制作或上传个性化视频内容，或者从运营商的视频库中进行选择，针对不同主叫方还可以设定不同的视频内容。从数据库中选取的视频彩铃是格式统一的3gp数据、帧率为60、分辨率相同且高清的视频数据。但对于由不同终端所传回的大量视频彩铃录频数据的分类，基于人工比对的方法已经不可接受。这些录频数据存在有帧率不统一、包含大量各异噪声、明暗差异大等质量问题，并且录屏数据的视频时长约为48秒左右，视频存在等待时延,...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的视频彩铃分类方法，其特征在于，包括有：步骤一、构造视频彩铃图像数据集：从视频彩铃录屏数据中抽取多张视频帧图像，然后对抽取的每张视频帧图像添加黑边和条形噪声，同时设定若干视频彩铃类别，并标定抽取的每张视频帧图像的视频彩铃类别，最后由抽取的所有视频帧图像构成视频彩铃图像数据集；步骤二、构建视频彩铃分类卷积网络，所述视频彩铃分类卷积网络由主干特征提取层、降维层、特征加强层构成，其输入是视频帧图像，输出是对输入视频帧图像的视频彩铃类别预测结果，然后以视频彩铃图像数据集为训练样本进行训练；步骤三、从待分类视频彩铃录屏数据中抽取若干帧图片，然后将抽取图片依次输入训练好的视频彩铃分类卷积网络，最后依据输出结果采用投票机制确定待分类视频彩铃的视频彩铃类别。2.根据权利要求1所述的方法，其特征在于，步骤一中，从视频彩铃录屏数据中抽取多张视频帧图像，进一步包括有：步骤11、对视频彩铃录屏数据进行帧率处理，具体方法是：将帧率小于30的视频帧率转换为30FPS，帧率大于30的视频不做处理，保持原帧率；步骤12、利用随机采样的方法，从每秒的视频彩铃录屏数据中随机抽取不重复的若干视频帧；步骤13、计算视频采样的起始时间T1和终止时间T2，并从步骤12获得的所有视频帧中选取位于起始时间和终止时间之间的视频帧图像，其中，视频采样的起始时间T1和终止时间T2的计算公式如下：其中，t
1i
、t
2i
分别是第i个视频内容播放的起始、终止时间，M是选取的视频内容总数，a是终止时间的采样范围控制系数，a∈[0.6，1]，α是平均时间调整系数，α∈[0.9，1],β是偏置项，β∈[0，0.1]。3.根据权利要求1所述的方法，其特征在于，步骤一中，对抽取的每张视频帧图像添加黑边的具体方法包括有：获取每张视频帧图像的长x与宽y，计算上黑边宽度top_size、下黑边宽度bottom_size、左黑边宽度left_size和右黑边宽度right_size，并设定黑边像素value为0，然后在每张视频帧图像上添加黑边，其中，上黑边宽度top_size、下黑边宽度bottom_size、左黑边宽度left_size和右黑边宽度right_size的具体计算过程如下：判断是否x<600或y<850，如果是，则top_size＝bottom_size＝35，left_size＝right_size＝25；如果否，则top_size＝bottom_size＝45，left_size＝right_size＝30。4.根据权利要求1所述的方法，其特征在于，步骤一中，对抽取的每张视频帧图像添加条形噪声的具体方法包括有：步骤A1、获取每张视频帧图像的长x与宽y，计算每张视频帧图像的中心坐标(x1，y1),然后利用中心坐标，获取每张视频帧图像的上边缘中心坐标(x1，0)和下边缘中心坐标(x1，y)；步骤A2、基于视频帧图像的上、下边缘中心坐标，设定宽度为Z的条状掩布，然后将每张视频帧图像上对应掩布区域的像素值设置为1，同时设定掩布Mask的R、G、B三通道的像素值：R＝67、G＝160、B＝0，再将R、G、B三通道的像素值按随机比例进行缩放，最后将每张视频
帧图像乘以Mask，从而完成每张视频帧图像上条形噪声的随机生成。5.根据权利要求1所述的方法，其特征在于，步骤一中，在对每张视频帧图像添加黑边和条形噪声的基础上，还随机进行添加椒盐噪声的操作，其中，对视频帧图像添加椒盐噪声的具体方法如下：步骤B1、获取与视频帧图像大小相同的零矩阵,并设置椒盐噪声中黑白噪声的比例阈值，其中黑噪声的比例阈值为prob,白噪声的比例阈值为Thres＝1
‑
prob；步骤B2、按照从左到右、从上到下的顺序，依次遍历零矩阵中每个像素点：使用随机函数为每个像素点生成1个处于[0，1]区间范围内的随机值，然后将随机值和黑白噪声的比例阈值进行比对，若随机值小于prob，则将零矩阵中对应的像素值更改为0，若随机值大于Thres，则将零矩阵中对应的像素值更改为255，若为其他情况，则零矩阵中对应的像素值保持不变，最后返回零矩阵的视频帧图像即是添加了椒盐噪声的视频帧图像。6.根据权利要求1所述的方法，其特征在于，步骤一中，在对每张视频帧图像添加黑边和条形噪声的基础上，还随机进行添加高斯噪声的操作，其中，对视频帧图像添加高斯噪声的具体方法如下：步骤C1、获取与视频帧图像大小相同的高斯分布矩阵，并设置均值Mean＝0、方差Var＝0.001；步骤C2、对视频帧图像进行归一化操作，即将视频帧图像中的每个像素值除以255，然后将归一化后的视频帧图像加上高斯矩阵，并将像素值上下边界值限定在[0，1]之间，最后将加了噪声的矩阵乘以255，从而最终获得添加了高斯噪声的视频帧图像。7.根据权利要求1所...

【专利技术属性】
技术研发人员：吴泽培，石峰，刘壮，段嘉嘉，赵晓梅，郑博文，
申请(专利权)人：杭州东信北邮信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人