一种基于数据增强的视频彩铃分类方法技术

技术编号:32355803 阅读:26 留言:0更新日期:2022-02-20 03:15
一种基于数据增强的视频彩铃分类方法,包括:构造视频彩铃图像数据集:从视频彩铃录屏数据中抽取多张视频帧图像,对每张视频帧图像添加黑边和条形噪声,同时设定若干视频彩铃类别,并标定每张视频帧图像的视频彩铃类别,由所有视频帧图像构成视频彩铃图像数据集;构建视频彩铃分类卷积网络,网络由主干特征提取层、降维层、特征加强层构成,其输入是视频帧图像,输出是视频彩铃类别预测结果,并以视频彩铃图像数据集为训练样本进行训练;从待分类视频彩铃录屏数据中抽取若干图片,然后将抽取图片输入视频彩铃分类卷积网络,最后依据输出结果采用投票机制确定视频彩铃类别。本发明专利技术属于信息技术领域,能快速准确的对视频彩铃录频数据进行内容分类。据进行内容分类。据进行内容分类。

【技术实现步骤摘要】
一种基于数据增强的视频彩铃分类方法


[0001]本专利技术涉及一种基于数据增强的视频彩铃分类方法,属于信息


技术介绍

[0002]视频分类技术是人工智能领域的一个重要领域,其在图像分类的技术上被进一步延伸到视频数据。目前图视频数据在互联网上无处不在,这促进了算法的开发,这些算法可以为各种应用程序分析图视频数据的语义内容,包括检索和分类识别。近年来,卷积神经网络(Convolutional Neural Network,CNN)被证明为一种有效理解图视频内容的模型,其可以学习强大且可解释的图像特征。由于计算机设备算力的提升可以将网络扩展到数千万个参数和支持学习过程的海量标记数据集,CNN在图视频分类、分割、检测、检索等领域都获得了最先进的结果。
[0003]视频彩铃是长期演进语音承载(Voice Over Long

Term Evolution,VOLTE)的特色业务,将“听的彩铃”演进成“看的彩铃”。用户在VOLTE网络下拨打语音电话或视频电话,呼叫接通前会看到一段视频内容。视频彩铃用户可以制作或上传个性化视频内容,或者从运营商的视频库中进行选择,针对不同主叫方还可以设定不同的视频内容。从数据库中选取的视频彩铃是格式统一的3gp数据、帧率为60、分辨率相同且高清的视频数据。但对于由不同终端所传回的大量视频彩铃录频数据的分类,基于人工比对的方法已经不可接受。这些录频数据存在有帧率不统一、包含大量各异噪声、明暗差异大等质量问题,并且录屏数据的视频时长约为48秒左右,视频存在等待时延,即需要一定时间才进入视频内容播放,各视频时延时间不一。
[0004]在人工智能分类技术中,存在大量的分类算法,例如决策树、随机深林、支持向量机、神经网络等技术。目前这些算法在精密仪器检测、人脸、车牌识别、目标检测、气象云微粒子识别领域都被广泛使用,但在特定于工业界用户视频彩铃的录频数据的分类上的应用是没有的。
[0005]因此,如何快速、准确的对视频彩铃录频数据进行内容分类,已成为现有技术中亟待解决的技术问题之一。

技术实现思路

[0006]有鉴于此,本专利技术的目的是提供一种基于数据增强的视频彩铃分类方法,能快速、准确的对视频彩铃录频数据进行内容分类。
[0007]为了达到上述目的,本专利技术提供了一种基于数据增强的视频彩铃分类方法,包括有:
[0008]步骤一、构造视频彩铃图像数据集:从视频彩铃录屏数据中抽取多张视频帧图像,然后对抽取的每张视频帧图像添加黑边和条形噪声,同时设定若干视频彩铃类别,并标定抽取的每张视频帧图像的视频彩铃类别,最后由抽取的所有视频帧图像构成视频彩铃图像数据集;
[0009]步骤二、构建视频彩铃分类卷积网络,所述视频彩铃分类卷积网络由主干特征提取层、降维层、特征加强层构成,其输入是视频帧图像,输出是对输入视频帧图像的视频彩铃类别预测结果,然后以视频彩铃图像数据集为训练样本进行训练;
[0010]步骤三、从待分类视频彩铃录屏数据中抽取若干帧图片,然后将抽取图片依次输入训练好的视频彩铃分类卷积网络,最后依据输出结果采用投票机制确定待分类视频彩铃的视频彩铃类别。
[0011]与现有技术相比,本专利技术的有益效果是:本专利技术针对视频彩铃内容分类,提出了一种基于数据增强算法、并结合自设计的卷积神经网络拓扑的视频彩铃分类方法,可以高精度且快速的分类视频彩铃;本专利技术还针对视频彩铃的噪声的随机性,结合视频彩铃的实际情况,提出了多种噪声结合的数据增强方法,从而加强了神经网络提取噪声特征的能力和增加了模型的泛化能力和鲁棒性;在视频彩铃分类卷积网络中,本专利技术还设计了特征加强层和网络参数降维结构,从而有效减少了算法训练和执行的时间;本专利技术对于待分类视频彩铃录屏数据,只需要几帧图像结合投票机制即可完成视频彩铃的快速分类。
附图说明
[0012]图1是本专利技术一种基于数据增强的视频彩铃分类方法的流程图。
[0013]图2是图1步骤一中从视频彩铃录屏数据中抽取多张视频帧图像的具体流程图。
[0014]图3是步骤一中对视频帧图像进行添加黑边、条形噪声、椒盐噪声、高斯噪声、动态明暗变化、旋转和反转等操作后的1个实施例的效果示意图。
[0015]图4是视频彩铃分类卷积网络对输入的视频帧图像的具体处理流程图。
[0016]图5是图1步骤三的具体流程图。
具体实施方式
[0017]为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。
[0018]如图1所示,本专利技术一种基于数据增强的视频彩铃分类方法,包括有:
[0019]步骤一、构造视频彩铃图像数据集:从视频彩铃录屏数据中抽取多张视频帧图像,然后对抽取的每张视频帧图像添加黑边和条形噪声,同时设定若干视频彩铃类别,并标定抽取的每张视频帧图像的视频彩铃类别,最后由抽取的所有视频帧图像构成视频彩铃图像数据集;
[0020]步骤二、构建视频彩铃分类卷积网络,所述视频彩铃分类卷积网络由主干特征提取层、降维层、特征加强层构成,其输入是视频帧图像,输出是对输入视频帧图像的视频彩铃类别预测结果,然后以视频彩铃图像数据集为训练样本进行训练;
[0021]步骤三、从待分类视频彩铃录屏数据中抽取若干帧图片,然后将抽取图片依次输入训练好的视频彩铃分类卷积网络,最后依据输出结果采用投票机制确定待分类视频彩铃的视频彩铃类别。
[0022]如图2所示,步骤一中,从视频彩铃录屏数据中抽取多张视频帧图像,可以进一步包括有:
[0023]步骤11、对视频彩铃录屏数据进行帧率(Frame Per Second,FPS)处理,具体方法
是:将帧率小于30的视频帧率转换为30FPS,帧率大于30的视频不做处理,保持原帧率;
[0024]步骤12、利用随机采样的方法,从每秒的视频彩铃录屏数据中随机抽取不重复的若干视频帧:
[0025]步骤12的具体方法可以是:利用随机函数random进行一定区间范围内(如[0,30])数的不重复选择,并利用随机函数的数值在每秒的视频帧中进行不重复的视频帧随机抽取,例如在每秒总共30帧或者大于30帧的片段中抽取15到20帧图像;
[0026]步骤13、计算视频采样的起始时间T1和终止时间T2,并从步骤12获得的所有视频帧中选取位于起始时间和终止时间之间(即[T1,T2])的视频帧图像。
[0027]本专利技术可以基于对大量录频数据时延的分析,选取M个(M大于100)视频内容播放的起始时间与终止时间,来计算视频采样的起始时间T1和终止时间T2。视频采样的起始时间T1和终止时间T2的计算公式可以如下:其中,t
1i
、t
2i
分别是第i个视频内容播放的起始、终止时间,M是选取的视频内容总数,a是终止时间的采样范围控制系数,a∈[0.6,1],α是平均时间调整系数,α∈[0.9,1],β是偏置项,β∈[0,0.1]。
[0028]步骤一中,对抽取的每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强的视频彩铃分类方法,其特征在于,包括有:步骤一、构造视频彩铃图像数据集:从视频彩铃录屏数据中抽取多张视频帧图像,然后对抽取的每张视频帧图像添加黑边和条形噪声,同时设定若干视频彩铃类别,并标定抽取的每张视频帧图像的视频彩铃类别,最后由抽取的所有视频帧图像构成视频彩铃图像数据集;步骤二、构建视频彩铃分类卷积网络,所述视频彩铃分类卷积网络由主干特征提取层、降维层、特征加强层构成,其输入是视频帧图像,输出是对输入视频帧图像的视频彩铃类别预测结果,然后以视频彩铃图像数据集为训练样本进行训练;步骤三、从待分类视频彩铃录屏数据中抽取若干帧图片,然后将抽取图片依次输入训练好的视频彩铃分类卷积网络,最后依据输出结果采用投票机制确定待分类视频彩铃的视频彩铃类别。2.根据权利要求1所述的方法,其特征在于,步骤一中,从视频彩铃录屏数据中抽取多张视频帧图像,进一步包括有:步骤11、对视频彩铃录屏数据进行帧率处理,具体方法是:将帧率小于30的视频帧率转换为30FPS,帧率大于30的视频不做处理,保持原帧率;步骤12、利用随机采样的方法,从每秒的视频彩铃录屏数据中随机抽取不重复的若干视频帧;步骤13、计算视频采样的起始时间T1和终止时间T2,并从步骤12获得的所有视频帧中选取位于起始时间和终止时间之间的视频帧图像,其中,视频采样的起始时间T1和终止时间T2的计算公式如下:其中,t
1i
、t
2i
分别是第i个视频内容播放的起始、终止时间,M是选取的视频内容总数,a是终止时间的采样范围控制系数,a∈[0.6,1],α是平均时间调整系数,α∈[0.9,1],β是偏置项,β∈[0,0.1]。3.根据权利要求1所述的方法,其特征在于,步骤一中,对抽取的每张视频帧图像添加黑边的具体方法包括有:获取每张视频帧图像的长x与宽y,计算上黑边宽度top_size、下黑边宽度bottom_size、左黑边宽度left_size和右黑边宽度right_size,并设定黑边像素value为0,然后在每张视频帧图像上添加黑边,其中,上黑边宽度top_size、下黑边宽度bottom_size、左黑边宽度left_size和右黑边宽度right_size的具体计算过程如下:判断是否x<600或y<850,如果是,则top_size=bottom_size=35,left_size=right_size=25;如果否,则top_size=bottom_size=45,left_size=right_size=30。4.根据权利要求1所述的方法,其特征在于,步骤一中,对抽取的每张视频帧图像添加条形噪声的具体方法包括有:步骤A1、获取每张视频帧图像的长x与宽y,计算每张视频帧图像的中心坐标(x1,y1),然后利用中心坐标,获取每张视频帧图像的上边缘中心坐标(x1,0)和下边缘中心坐标(x1,y);步骤A2、基于视频帧图像的上、下边缘中心坐标,设定宽度为Z的条状掩布,然后将每张视频帧图像上对应掩布区域的像素值设置为1,同时设定掩布Mask的R、G、B三通道的像素值:R=67、G=160、B=0,再将R、G、B三通道的像素值按随机比例进行缩放,最后将每张视频
帧图像乘以Mask,从而完成每张视频帧图像上条形噪声的随机生成。5.根据权利要求1所述的方法,其特征在于,步骤一中,在对每张视频帧图像添加黑边和条形噪声的基础上,还随机进行添加椒盐噪声的操作,其中,对视频帧图像添加椒盐噪声的具体方法如下:步骤B1、获取与视频帧图像大小相同的零矩阵,并设置椒盐噪声中黑白噪声的比例阈值,其中黑噪声的比例阈值为prob,白噪声的比例阈值为Thres=1

prob;步骤B2、按照从左到右、从上到下的顺序,依次遍历零矩阵中每个像素点:使用随机函数为每个像素点生成1个处于[0,1]区间范围内的随机值,然后将随机值和黑白噪声的比例阈值进行比对,若随机值小于prob,则将零矩阵中对应的像素值更改为0,若随机值大于Thres,则将零矩阵中对应的像素值更改为255,若为其他情况,则零矩阵中对应的像素值保持不变,最后返回零矩阵的视频帧图像即是添加了椒盐噪声的视频帧图像。6.根据权利要求1所述的方法,其特征在于,步骤一中,在对每张视频帧图像添加黑边和条形噪声的基础上,还随机进行添加高斯噪声的操作,其中,对视频帧图像添加高斯噪声的具体方法如下:步骤C1、获取与视频帧图像大小相同的高斯分布矩阵,并设置均值Mean=0、方差Var=0.001;步骤C2、对视频帧图像进行归一化操作,即将视频帧图像中的每个像素值除以255,然后将归一化后的视频帧图像加上高斯矩阵,并将像素值上下边界值限定在[0,1]之间,最后将加了噪声的矩阵乘以255,从而最终获得添加了高斯噪声的视频帧图像。7.根据权利要求1所...

【专利技术属性】
技术研发人员:吴泽培石峰刘壮段嘉嘉赵晓梅郑博文
申请(专利权)人:杭州东信北邮信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1