视频处理方法及装置、电子设备和存储介质制造方法及图纸

技术编号:37817417 阅读:16 留言:0更新日期:2023-06-09 09:48
本公开提供了一种视频处理方法及装置、电子设备和存储介质。该视频处理方法包括:获取待处理视频;对待处理视频进行分镜操作,以识别待处理视频所包括的多个镜头;针对该多个镜头中的每一个镜头,基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息,其中,该一个或多个分类模型被预训练;以及基于一个或多个分镜信息生成与待处理视频对应的分镜头脚本。分镜头脚本。分镜头脚本。

【技术实现步骤摘要】
视频处理方法及装置、电子设备和存储介质


[0001]本公开涉及计算机视觉
,具体涉及一种视频处理方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着互联网技术的成熟以及5G技术的发展,网络上的内容逐渐视频化。与传统的图文内容相比,制作视频更为复杂,通常需要根据分镜头脚本进行拍摄、剪辑等,从而获得期望的视频。分镜头脚本是一种以文字形式呈现视频的视觉形象的工作台本,其不仅是拍摄和剪辑制作的蓝本,还同时记载了视频的创作构思、拍摄构图方式等信息。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种视频处理方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面,提供一种视频处理方法,包括:获取待处理视频;对待处理视频进行分镜操作,以识别待处理视频所包括的多个镜头;针对该多个镜头中的每一个镜头,基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息,其中,该一个或多个分类模型被预训练;以及基于一个或多个分镜信息生成与待处理视频对应的分镜头脚本。
[0006]根据本公开的另一方面,还提供一种视频处理装置,包括:获取模块,被配置为获取待处理视频;分镜操作模块,被配置为对待处理视频进行分镜操作,以识别待处理视频所包括的多个镜头;确定分镜信息模块,被配置为针对该多个镜头中的每一个镜头,基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息,其中,该一个或多个分类模型被预训练;以及生成分镜头脚本模块,被配置为基于一个或多个分镜信息生成与待处理视频对应的分镜头脚本。
[0007]根据本公开的另一方面,还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的至少一个存储器,其中,所述至少一个存储器存储有计算机程序,所述计算机程序在被所述至少一个处理器执行时实现上述视频处理方法。
[0008]根据本公开的另一方面,还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被处理器执行时实现上述视频处理方法。
[0009]根据本公开的另一方面,还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现上述视频处理方法。
[0010]根据本公开的一个或多个实施例,利用预训练的一个或多个分类模型确定待处理视频中的每一个镜头的分镜信息,并且基于这些分镜信息生成与该待处理视频对应的分镜
头脚本。由于生成分镜信息的分类模型是经过预训练的,因此在训练样本较为充足的情况下,不仅可以确保所获得的镜头分镜信息的准确性,还可以大幅缓解人工拆分视频镜头、分析每个镜头的分镜信息等所耗费的时间成本和人工成本,从而高视频创作和学习的效率。
[0011]根据本公开的另外一个或多个实施例,上述视频处理方法不限于单一视频,而是可以适用于由不同镜头、不同场景组合而成的复杂视频并为其生成对应的分镜头脚本,从而提高了泛用性。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0014]图1示出了根据本公开的一些实施例的视频处理方法的流程图;
[0015]图2示出了根据本公开的另一些实施例的视频处理方法的流程图;
[0016]图3示出了根据本公开的一些实施例的识别每一个镜头所属的场景的流程图;
[0017]图4示出了根据本公开的又一些实施例的视频处理方法的流程图;
[0018]图5示出了根据本公开的又一些实施例的视频处理方法的流程图;
[0019]图6示出了根据本公开的一些实施例的针对待处理视频包括的每一个场景生成相对应的摘要信息的流程图;
[0020]图7示出了根据本公开的一些实施例的视频处理方法的流程图;
[0021]图8示出了根据本公开的一些实施例的视频处理装置的结构框图;
[0022]图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0024]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0025]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0026]与传统的图文内容相比,制作视频通常更为复杂,需要根据分镜头脚本进行拍摄、剪辑等,从而获得期望的视频。分镜头脚本是一种以文字形式呈现视频的视觉形象的工作
台本,其不仅是拍摄和剪辑制作的蓝本,还同时记载了视频的创作构思、拍摄构图方式等信息。在一些情况下,可能期望分析和学习优质视频的创作构思、拍摄构图方式或者期望从大量视频中快速找到与预期主题相匹配的一个或多个视频。因此,能够快速生成与视频对应的分镜头脚本将是有益的。
[0027]专利技术人发现,在现有技术中,通常采用人工方式来获得与视频对应的分镜头脚本,即人工仔细观看视频并拆分视频中的镜头、逐镜头地分析并记录每个镜头的分镜信息(例如,拍摄方法、构图方法、运镜方法、拍摄内容、字幕信息等)、并且根据记录的分镜信息撰写对应的分镜头脚本。然而,视频可能包括不止一个镜头,并且每个镜头之间的分镜信息可能有很大差异,因此通过人工方式来分析视频并获得对应的分镜头脚本,将导致时间成本和人工成本大幅增加,从而限制了对优质视频的学习并进而降低了如后续创作视频的效率。
[0028]有鉴于此,本公开的实施例提供了一种视频处理方法,该方法利用预训练的一个或多个分类模型确定待处理视频中的每一个镜头的分镜信息,并且基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,包括:获取待处理视频;对所述待处理视频进行分镜操作,以识别所述待处理视频所包括的多个镜头;针对所述多个镜头中的每一个镜头,基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息,所述一个或多个分类模型被预训练;以及基于所述一个或多个分镜信息生成与所述待处理视频对应的分镜头脚本。2.根据权利要求1所述的方法,其中,对所述待处理视频进行分镜操作,以识别所述待处理视频包括的多个镜头包括:对所述待处理视频进行分帧操作,以获得多个视频帧;针对所述多个视频帧中的每一个视频帧,确定该视频帧与相邻视频帧之间的第一相似度;以及基于所述第一相似度确定该视频帧是否为所述待处理视频的边界视频帧,所述边界视频帧用于区分所述多个镜头中的相邻镜头。3.根据权利要求1所述的方法,还包括:识别所述多个镜头中的每一个镜头所属的场景。4.根据权利要求3所述的方法,其中,识别所述多个镜头中的每一个镜头所属的场景包括:针对所述每一个镜头,提取该镜头的图像特征;确定该镜头的图像特征与所述每个镜头的图像特征之间的多个第二相似度;基于所述多个第二相似度确定该镜头是否为所述待处理视频的场景边界镜头,所述场景边界镜头用于区分所述待处理视频中的相邻场景;以及根据所述场景边界镜头确定所述待处理视频包括的多个场景,并且对所述每个镜头进行归类。5.根据权利要求1

4中任一项所述的方法,其中,针对所述多个镜头中的每一个镜头,基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息包括:获取第一多个镜头样本及其预先确定的多个分镜信息;以所述第一多个镜头样本作为训练输入并且以所述预先确定的多个分镜信息作为训练输出,建立所述一个或多个分类模型;以及基于所述一个或多个分类模型对该镜头进行标签分类,所述标签分类指示与该镜头相对应的一个或多个分镜信息。6.根据权利要求5所述的方法,其中,所述一个或多个分类模型包括以下中的一个或多个:景别分类模型、运镜分类模型、焦距分类模型、拍摄角度分类模型以及场景分类模型。7.根据权利要求1

4中任一项所述的方法,其中,还包括:针对所述多个镜头中的每一个镜头,生成与该镜头相对应的文字描述。8.根据权利要求7所述的方法,其中,针对所述多个镜头中的每一个镜头,生成与该镜头相对应的文字描述包括:获取第二多个镜头样本,所述第二多个镜头样本中的每一个镜头样本具有相对应的镜头样本文字描述;
以所述第二多个镜头样本作为训练输入并且以所述相对应的镜头样本文字描述作为训练输出建立镜头描述生成模型;以及针对所述第二多个镜头中的每一个镜头,将该镜头作为所述镜头描述生成模型的输入进行处理,以生成与该镜头相对应的文字描述,其中,所述镜头描述生成模型包括接收所述每一个镜头作为输入的编码器和生成与所述每一个镜头相对应的文字描述作为输出的解码器。9.根...

【专利技术属性】
技术研发人员:陈泽宇王欣博曹翔黄雅勤
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1