短视频场景分类方法、系统、电子设备及存储介质技术方案

技术编号:30541876 阅读:16 留言:0更新日期:2021-10-30 13:19
本发明专利技术公开了一种短视频场景分类方法、系统、电子设备及存储介质,短视频场景分类方法包括:短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个视频帧获得具有对应多个视频帧的多个图片信息的图像数据集;场景分类识别步骤:通过一经度量学习后的识别网络对图像数据集中的多个图片信息进行识别分类获得每一图片信息的图像概率;图像概率处理步骤:根据每一图片信息的图像概率计算获得短视频的每一场景类别的场景概率。本发明专利技术在基于图像级的场景分类的基础上,使用了度量学习的思想解决了同一类别特征层面的差距过大的问题,保证了最后的分类效果。保证了最后的分类效果。保证了最后的分类效果。

【技术实现步骤摘要】
短视频场景分类方法、系统、电子设备及存储介质


[0001]本专利技术涉及视频处理
,特别涉及一种结合度量学习的短视频 场景分类方法、系统、电子设备及存储介质。

技术介绍

[0002]随着科学技术的飞速发展,通讯技术得到了飞速的发展,目前的通讯 技术已经发展到了第五代通信
‑‑‑
5G。5G技术的飞速发展带来了互联网信息 传播的新途径
‑‑‑
短视频。短视频已经成为了目前社会生活下传播信息最丰 富,最快捷,最受欢迎的途径。抖音短视频的月活数已经突破了两亿人次。 各种其他的短视频APP也同样有着丰富的人气。如快手,腾讯微视,微信 视频号等也有着非常丰富的月活人数。在这种丰富的月活人数下,各种短 视频平台的数据量急剧上升,如何能够更好的使用丰富的短视频,并提取 出有用的信息,进行数据分析也成为了一个新的技术课题。
[0003]与正常的场景分类不同,短视频场景分类主要面临两个问题需要进行 解决:
[0004]一是与图像不同,一副图像中只会描述一种场景。如图1中,这幅图 像就只是描述了室内的场景。而对于短视频而言,由于其是一个较长时间 的故事,因此场景会发生切换;如图2所示,其场景由室内切换到室外, 因此对于一个短视频内的场景要尽可能的将所有的场景都识别到;
[0005]二是与普通的场景识别不同,短视频场景下,周围环境信息的内容较 为稀少,大部分均是人物占据主要区域,如图3,而且同一场景类别下的信 息差异也比较明显,如同样是直播间的场景,但各个图像之间的差异比较 大,在场景信息已经不多的情况下更难以做到对于分类类别的精准,如图4。
[0006]基于以上问题现有技术大都采取以下方案:
[0007]1、基于视频级的3D卷积场景分类方法
[0008]目前,最为广泛C3D是Facebook的一个工作,它主要是把2D Convolution 扩展到3D。我们知道2D的卷积操作是将卷积核在输入图像或特征图(featuremap)上进行滑窗,得到下一层的特征图。例如,在一个单通道的图像上做卷 积,或在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的 3个颜色通道,也指多张堆叠在一起的帧,即一小段视频),最终的输出都是 一张二维的特征图,也就是说,多通道的信息被完全压缩了。而在3D卷积中, 为了保留时序的信息,对卷积核进行了调整,增加了一维时域深度。3D卷积的 输出仍是一个三维的特征图。因此通过3D卷积,C3D可以直接处理视频,同 时利用表观特征和时序特征。但这种方法的缺点是:基于视频的方法,只能给 出这个视频的主题场景,一般会忽略掉短视频中出现时长较为短暂的其他场景, 导致其结果不满足要求。
[0009]2、基于图像级的抽帧采样场景分类方法
[0010]本技术方法是对于整个短视频先进行帧的提取操作,在提取帧的基础 上使用基于图像的场景分类方法进行分类操作。直接利用现有成熟的网络 架构如ResNet就可以实现图像涉及场所的识别。在对于所有的图像进行识 别后,对于最终的识别结果进行聚合,
这样出现频次较高的场景会有相对 较高的结果,出现频次较低的场景会有相对而言较低的结果,但是会包含 所有出现过的场景。但这种方法的缺点是:但由于图像级的条件下,图像 中的主体被人物所遮挡导致周围环境信息较少再加上类别内图像差异较大, 因此识别的准确率可能不高。
[0011]因此亟需开发一种克服上述缺陷的结合度量学习的短视频场景分类方 法、系统、电子设备及存储介质。

技术实现思路

[0012]针对上述问题,本申请实施例提供了一种结合度量学习的短视频场景 分类方法、系统、电子设备及存储介质,以至少解决在短视频的训练数据 较少的情况下,获得更高的分类性能的问题。
[0013]本专利技术提供一种短视频场景分类方法,其中,包括:
[0014]短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;
[0015]场景分类识别步骤:通过一经度量学习后的识别网络对所述图像数据 集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概率;
[0016]图像概率处理步骤:根据每一所述图片信息的图像概率计算获得所述 短视频的每一场景类别的场景概率。
[0017]上述的短视频场景分类方法,其中,所述短视频图像处理步骤包括: 将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个 所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数 据集。
[0018]上述的短视频场景分类方法,其中,所述场景分类识别步骤包括:
[0019]样本图像数据集获取步骤:对样本短视频图像进行抽帧提取获得多个 样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧 的多个样本图片信息的样本图像数据集;
[0020]样本图像数据集处理步骤:为所述样本图像数据集的每一所述样本图 片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的第 二图片信息;
[0021]图片向量获取步骤:将所述样本图片信息、所述第一图片信息及所述 第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第二 图片向量;
[0022]度量学习步骤:对所述样本图片向量、所述第一图片向量及所述第二 图片向量使用TripletLoss进行度量学习获得网络学习特征;
[0023]图像概率输出步骤:所述识别网络根据所述网络学习特征对多个所述 图片信息进行识别分类获得每一所述图片信息的图像概率。
[0024]上述的短视频场景分类方法,其中,所述图像概率处理步骤包括:根 据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一 场景类别的场景概率。
[0025]本专利技术还提供一种短视频场景分类系统,其中,包括:
[0026]短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧, 根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像 数据集;
[0027]场景分类识别单元,通过一经度量学习后的识别网络对所述图像数据 集中的多
个所述图片信息进行识别分类获得每一所述图片信息的图像概率;
[0028]图像概率处理单元,根据每一所述图片信息的图像概率计算获得所述 短视频的每一场景类别的场景概率。
[0029]上述的短视频场景分类系统,其中,所述短视频图像处理单元将所述 短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视 频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。
[0030]上述的短视频场景分类系统,其中,所述场景分类识别单元包括:
[0031]样本图像数据集获取模块,对样本短视频图像进行抽帧提取获得多个 样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧 的多个样本图片信息的样本图像数据集;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短视频场景分类方法,其特征在于,包括:短视频图像处理步骤:对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的图像数据集;场景分类识别步骤:通过一经度量学习后的识别网络对所述图像数据集中的多个所述图片信息进行识别分类获得每一所述图片信息的图像概率;图像概率处理步骤:根据每一所述图片信息的图像概率计算获得所述短视频的每一场景类别的场景概率。2.如权利要求1所述的短视频场景分类方法,其特征在于,所述短视频图像处理步骤包括:将所述短视频图像进行抽帧提取,获取到所述短视频图像的分辨率及多个所述视频帧,根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。3.如权利要求1所述的短视频场景分类方法,其特征在于,所述场景分类识别步骤包括:样本图像数据集获取步骤:对样本短视频图像进行抽帧提取获得多个样本视频帧,根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个样本图片信息的样本图像数据集;样本图像数据集处理步骤:为所述样本图像数据集的每一所述样本图片信息匹配一个同一场景类别的第一图片信息及一个不同一场景类别的第二图片信息;图片向量获取步骤:将所述样本图片信息、所述第一图片信息及所述第二图片信息输入所述识别网络获得样本图片向量、第一图片向量及第二图片向量;度量学习步骤:对所述样本图片向量、所述第一图片向量及所述第二图片向量使用TripletLoss进行度量学习获得网络学习特征;图像概率输出步骤:所述识别网络根据所述网络学习特征对多个所述图片信息进行识别分类获得每一所述图片信息的图像概率。4.如权利要求3所述的短视频场景分类方法,其特征在于,所述图像概率处理步骤包括:根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。5.一种短视频场景分类系统,其特征在于,包括:短视频图像处理单元,对短视频图像进行抽帧提取获得多个视频帧,根据多个所述视频帧获得具有对应多个所述视频帧的多个图片信息的...

【专利技术属性】
技术研发人员:朱彦浩胡郡郡唐大闰
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1