视频处理方法和装置制造方法及图纸

技术编号:30884673 阅读:17 留言:0更新日期:2021-11-22 20:26
提供了一种视频处理方法和装置,所述视频处理方法包括:基于视频的时域特征和空域特征,获取视频的第一特征;基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率以及动作提名的置信度;基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度,获取动作提名。获取动作提名。获取动作提名。

【技术实现步骤摘要】
视频处理方法和装置


[0001]本专利技术涉及视频处理领域,更具体地,涉及一种端到端边界敏感(End-to-end Boundary Sensitive(EBS))的视频处理方法和装置。

技术介绍

[0002]随着科技的进步和社会的发展,智能便携式装置越来越普及,人们使用智能便携式装置拍摄视频也越来越多,每天都有大量的视频被分享到网络上。因此,自动地理解视频内容从而处理这些视频变得非常重要。由于这些视频通常是未经裁剪的,而用户通常只需要视频中的某些片段,因此对视频时域动作定位进行了越来越多的研究,其目标是找出视频中每个动作实例(action instance)的起始时间、终止时间和动作的类别。
[0003]现有的时域动作定位的方法通常可以分为两类:自上而下(top-down)的方法和自下而上(bottom-up)的方法。自上而下的方法通常利用预定义的视频片段,例如锚点(anchor),来产生动作提名(action proposal),然后给出这些动作提名的类别,其中,动作提名是指可能是动作的视频片段,包括该片段的起始时间和终止时间,动作实例是视频中的动作片段,只有判断对的动作提名才是动作实例。然而,自上而下的方法通常难以得到准确的敏感的动作边界导致定位性能较差。自下而上的方法通常密集地预测每一帧属于动作起始时间和终止时间的可能性,基于不同起始时间和终止时间的组合得到动作提名,对这些动作提名进行验证得到动作实例;接着,利用额外的动作分类器得到这些动作实例的类别。

技术实现思路

[0004]根据本专利技术的示例性实施例,提供了一种视频处理方法,包括:基于视频的时域特征和空域特征,获取视频的第一特征;基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率以及动作提名的置信度;基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度,获取动作提名。
[0005]获取第一特征的步骤可包括:基于非线性变换的时域特征和非线性变换的空域特征,获取第一特征。
[0006]基于非线性变换的时域特征和非线性变换的空域特征,获取第一特征的步骤可包括:a)对空域特征进行不同的非线性变换并将非线性变换结果相加以获取第一空域特征;b)对时域特征进行不同的非线性变换并将非线性变换结果相加以获取第一时域特征;c)将第一空域特征和第一时域特征连接以获取第一特征。
[0007]可将每次获取的第一特征作为空域特征并将每次获取的第一时域特征作为时域特征,重复执行步骤a)、b)和c)预定数量次。
[0008]获取视频帧属于动作起始时间的概率和属于动作终止时间的概率的步骤可包括:基于第一特征以及所述视频帧与所述视频的其他所有视频帧之间的相似度,获取所述视频帧属于动作起始时间的概率和属于动作终止时间的概率。
[0009]获取视频帧属于动作起始时间的概率和属于动作终止时间的概率的步骤可包括:第一特征通过前向转换器和后向转换器,获取所述视频帧属于动作起始时间的概率和属于动作终止时间的概率。
[0010]所述视频处理方法还可包括:基于第一特征,获取动作提名的特征;基于动作提名的特征,获取动作提名的类别。
[0011]所述的视频处理方法还可包括:基于动作提名的类别和动作提名,获取动作实例。
[0012]根据本专利技术的另一示例性实施例,提供了一种视频处理装置,包括:特征获取单元,基于视频的时域特征和空域特征,获取视频的第一特征;概率和置信度单元,基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度;动作提名单元,基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度,获取动作提名。
[0013]根据本专利技术的示例性实施例,提供了一种电子设备,包括存储器和处理器,存储器上存储有计算机可执行指令,当所述指令由处理器执行时,执行前述的方法。
[0014]根据本专利技术的示例性实施例,提供了一种计算机可读介质,其上存储有计算机可执行指令,当执行所述指令时,执行前述的方法。
[0015]将在接下来的描述中部分阐述本专利技术总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本专利技术总体构思的实施而得知。
附图说明
[0016]通过下面结合附图进行的详细描述,本专利技术的上述和其它目的和特点将会变得更加清楚,其中:
[0017]图1是示出根据本专利技术示例性实施例的视频处理方法的流程图;
[0018]图2是示出根据本专利技术示例性实施例的视频处理方法的示意图;
[0019]图3是示出根据本专利技术示例性实施例的获取第一特征的流程图;
[0020]图4是示出根据本专利技术示例性实施例的获取第一特征的示意图;
[0021]图5是示出根据本专利技术示例性实施例的获取概率的流程图;
[0022]图6是示出根据本专利技术示例性实施例的获取概率的示意图;
[0023]图7示出了采用卷积原型层进行分类的示意图;
[0024]图8是示出根据本专利技术示例性实施例的视频处理装置的框图;
[0025]图9是示出根据本专利技术示例性实施例的时域动作定位的用户场景的示意图。
具体实施方式
[0026]现将详细参照本专利技术的实施例,所述实施例的示例在附图中示出,其中,相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例,以便解释本专利技术。
[0027]提出了根据本专利技术的示例性实施例的端到端边界敏感的时域动作定位。该端到端边界敏感的时域动作定位同样为自下而上的时域动作定位,其中,使用它们的起始时间和终止时间产生了许多动作提名。为了整合时域上下文信息,添加将时域和空域特征融合模块和双向转换器以分别对动作提名的起始时间和终止时间进行预测。同时,添加基于原型学习的动作分类分支,使根据本专利技术的示例性实施例的方法可被端到端地训练并排除未知
动作。随着越来越多的人使用智能电话来拍摄照片,根据本专利技术的示例性实施例的方法在帮助用户智能地拍摄和编辑视频方面(诸如,自动地选择不同模式以单拍来拍摄视频、在较长的未经整理的视频中选择用户期望的视频片段用于分享,等等)具有极大的商业价值。
[0028]图1是示出根据本专利技术示例性实施例的视频处理方法的流程图,图2是示出根据本专利技术示例性实施例的视频处理方法的示意图,下面将参照图1和图2对根据本专利技术示例性实施例的视频处理方法进行描述。在端到端边界敏感时域动作定位方法中,同时产生局部的动作起始时间和终止时间的概率、全局的动作提名的置信度以及动作的类别。如图2所示,端到端边界敏感时域动作定位方法可包括特征提取、时空特征融合、带双向转换器的时域评价、边界匹配、提名评价进而动作分类。
[0029]参照图1,在步骤S110,可基于视频的时域特征和空域特征来获取视频的第一特征。这里,仅作为示例而非限制,可采用与边界匹配网络相同的特征提取方法来获取视频的时域特征和空域特征,即,分别提取时域(诸如,光流)和空域(诸如,RGB)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,包括:基于视频的时域特征和空域特征,获取视频的第一特征;基于第一特征,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率以及动作提名的置信度;基于视频帧属于动作起始时间的概率和属于动作终止时间的概率、以及动作提名的置信度,获取动作提名。2.如权利要求1所述的视频处理方法,其中,获取第一特征的步骤包括:基于非线性变换的时域特征和非线性变换的空域特征,获取第一特征。3.如权利要求2所述的视频处理方法,其中,基于非线性变换的时域特征和非线性变换的空域特征,获取第一特征的步骤包括:a)对空域特征进行不同的非线性变换并将非线性变换结果相加以获取第一空域特征;b)对时域特征进行不同的非线性变换并将非线性变换结果相加以获取第一时域特征;c)将第一空域特征和第一时域特征连接以获取第一特征。4.如权利要求3所述的视频处理方法,其中,将每次获取的第一特征作为空域特征并将每次获取的第一时域特征作为时域特征,重复执行步骤a)、b)和c)预定数量次。5.如权利要求1所述的视频处理方法,其中,获取视频帧属于动作起始时间的概率和属于动作终止时间的概率的步骤包括:基于第一特征以及所述视频帧与所述视频的其他所有视频帧之间的相似度,获取所述...

【专利技术属性】
技术研发人员:王晓冰过海洋余义刘师卓
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1