短视频事件分类方法、系统、电子设备及存储介质技术方案

技术编号:30546080 阅读:11 留言:0更新日期:2021-10-30 13:24
本发明专利技术公开了一种短视频事件分类方法、系统、电子设备及存储介质,基于Transformer网络对短视频中的事件进行分类,短视频事件分类方法包括:短视频处理步骤:对短视频进行预处理获得短视频的多个特征向量及短视频的每一事件的起止位置;指引向量获取步骤:根据短视频的每一事件的起止位置获得对应事件的指引向量;分类步骤:根据指引向量及短视频的多个特征向量通过transformer网络进行特征学习后,输出对应每一事件的多标签分类结果;本发明专利技术将指引向量与transformer结构进行了融合,既能够实现统一的标准化输入又能够学习到事件特征之间的相关关系,解决了由于事件长度不一带来的双重问题并提升了分类效果。来的双重问题并提升了分类效果。来的双重问题并提升了分类效果。

【技术实现步骤摘要】
短视频事件分类方法、系统、电子设备及存储介质


[0001]本专利技术涉及视频处理
,特别涉及一种基于Transformer网络的短视频事件分类方法、系统、电子设备及存储介质。

技术介绍

[0002]随着互联网社交平台的发展,海量的各种各样的媒体形式在互联网上传播。其中,短视频作为一种新兴的媒体在近些年迅速发展流行起来。在海量的短视频中,快速确定短视频的种类,将短视频按照一定的标准进行分类,是进行短视频内容分析的重要环节,是后续进行个性化推荐的重要前提。
[0003]事件分类有一个比较明显的问题,这个问题带来了此领域的两个难题。由于不同视频中的不同事件的时间长度不一致,导致不同的事件有着不同的特征长度,例如如果对视频每一秒钟抽取一条特征,那么一个二十秒的事件其特征长度为20,而一个三秒的事件其特征长度只有3。这会带来两个比较明显的问题:一是在进行分类算法训练时无法做到统一的标准化输入。二是特征长度的不同会带来算法学习上的无法聚焦。
[0004]现有技术中,大都采取以下方式:
[0005]1.将事件特征暴力平均的方法
[0006]这种方法的操作是将事件的特征全部进行加和处理,然后除以特征的长度,将这种经过加和后处理的1条特征送入分类器进行分类。其优点比较明显,无论是特征长度有多长,其最终在进入分类器时只有1条特征,满足了特征长度标准化的要求。但这种方法的缺点在于:无法学习特征间关系,暴力的进行特征的加和平均使网络无法学习到那些是有助于分类的重要特征那些是无关紧要的特征,对最后的分类结果不友好。
[0007]2.使用循环神经网络的方法
[0008]这种方法将事件的每一条特征逐次的送入到网络结构中,对所有的特征进行特征之间相关性的学习,最终得到最后的分类结果。这种方法会学习到事件特征之间的关系,能够做到更好的分类。但这种方法的缺点在于:无法进行统一的标准化输入,训练时每次只能接受一个事件,导致训练成本过高,很难满足实际需求。
[0009]因此亟需开发一种克服上述缺陷的基于Transformer网络的短视频事件分类方法、系统、电子设备及存储介质。

技术实现思路

[0010]针对上述问题,本申请实施例提供了一种基于Transformer网络的短视频事件分类方法、系统、电子设备及存储介质,以至少解决由于事件长度不一带来分类不准确的问题。
[0011]本专利技术提供一种短视频事件分类方法,其中,基于Transformer网络对短视频中的事件进行分类,所述事件分类方法包括:
[0012]短视频处理步骤:对短视频进行预处理获得所述短视频的多个特征向量及所述短
视频的每一事件的起止位置;
[0013]指引向量获取步骤:根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量;
[0014]分类步骤:根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后,输出对应每一所述事件的多标签分类结果。
[0015]上述的短视频事件分类方法,其中,所述短视频处理步骤包括:根据设定时间对所述短视频进行向量化处理获得多个所述特征向量,根据多个所述特征向量的编号确定每一所述事件的所述起止位置。
[0016]上述的短视频事件分类方法,其中,所述分类步骤包括:
[0017]编码步骤:通过所述Transformer网络对所述指引向量进行编码获得编码值,并根据所述编码值与多个所述特征向量进行计算获得多个特征;
[0018]分类结果输出步骤:所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系,并输出特征学习后的所述多标签分类结果。
[0019]上述的短视频事件分类方法,其中,所述编码步骤包括:通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。
[0020]本专利技术还提供一种短视频事件分类系统,其中,基于Transformer网络对短视频中的事件进行分类,所事件分类系统包括:
[0021]短视频处理单元,对短视频进行预处理获得所述短视频的多个特征向量及所述短视频的每一事件的起止位置;
[0022]指引向量获取单元,根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量;
[0023]分类单元,根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后,输出对应每一所述事件的多标签分类结果。
[0024]上述的短视频事件分类系统,其中,所述短视频处理单元根据设定时间对所述短视频进行向量化处理获得多个所述特征向量,根据多个所述特征向量的编号确定每一所述事件的所述起止位置。
[0025]上述的短视频事件分类系统,其中,所述分类单元包括:
[0026]编码模块,通过所述Transformer网络对所述指引向量进行编码获得编码值,并根据所述编码值与多个所述特征向量进行计算获得多个特征;
[0027]分类结果输出模块,所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系,并输出特征学习后的所述多标签分类结果。
[0028]上述的短视频事件分类系统,其中,所述编码模块通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。
[0029]本专利技术还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述中任一项所述的短视频事件分类方法。
[0030]本专利技术还提供一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述中任一项所述的短视频事件分类方法。
[0031]本专利技术相对于现有技术其有益效果在于:
[0032]本专利技术使用了在attention领域效果较好的transformer网络结构,并设计了每个事件需要关注的特征的指引向量,将指引向量与transformer结构进行了融合,既能够实现统一的标准化输入又能够学习到事件特征之间的相关关系,解决了由于事件长度不一带来的双重问题并提升了分类效果,同时基于本专利技术的深度学习技术也提升了计算机视觉能力。
[0033]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术的短视频事件分类方法的流程图;
[0036]图2为图1中步骤S3的分步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短视频事件分类方法,其特征在于,基于Transformer网络对短视频中的事件进行分类,所述事件分类方法包括:短视频处理步骤:对短视频进行预处理获得所述短视频的多个特征向量及所述短视频的每一事件的起止位置;指引向量获取步骤:根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量;分类步骤:根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后,输出对应每一所述事件的多标签分类结果。2.如权利要求1所述的短视频事件分类方法,其特征在于,所述短视频处理步骤包括:根据设定时间对所述短视频进行向量化处理获得多个所述特征向量,根据多个所述特征向量的编号确定每一所述事件的所述起止位置。3.如权利要求1所述的短视频事件分类方法,其特征在于,所述分类步骤包括:编码步骤:通过所述Transformer网络对所述指引向量进行编码获得编码值,并根据所述编码值与多个所述特征向量进行计算获得多个特征;分类结果输出步骤:所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系,并输出特征学习后的所述多标签分类结果。4.如权利要求3所述的短视频事件分类方法,其特征在于,所述编码步骤包括:通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。5.一种短视频事件分类系统,其特征在于,基于Transformer网络对短视频中的事件进行分类,所事件分类系统包括:短视频处理单元,对短视频进行预处理获得所述短视频的...

【专利技术属性】
技术研发人员:朱彦浩胡郡郡唐大闰
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1