视频处理方法及装置、电子设备和存储介质制造方法及图纸

技术编号：37817417 阅读：16 留言：0更新日期：2023-06-09 09:48

本公开提供了一种视频处理方法及装置、电子设备和存储介质。该视频处理方法包括：获取待处理视频；对待处理视频进行分镜操作，以识别待处理视频所包括的多个镜头；针对该多个镜头中的每一个镜头，基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息，其中，该一个或多个分类模型被预训练；以及基于一个或多个分镜信息生成与待处理视频对应的分镜头脚本。分镜头脚本。分镜头脚本。

全部详细技术资料下载

【技术实现步骤摘要】
视频处理方法及装置、电子设备和存储介质

[0001]本公开涉及计算机视觉
，具体涉及一种视频处理方法及装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着互联网技术的成熟以及5G技术的发展，网络上的内容逐渐视频化。与传统的图文内容相比，制作视频更为复杂，通常需要根据分镜头脚本进行拍摄、剪辑等，从而获得期望的视频。分镜头脚本是一种以文字形式呈现视频的视觉形象的工作台本，其不仅是拍摄和剪辑制作的蓝本，还同时记载了视频的创作构思、拍摄构图方式等信息。
[0003]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0004]本公开提供了一种视频处理方法及装置、电子设备、计算机可读存储介质和计算机程序产品。
[0005]根据本公开的一方面，提供一种视频处理方法，包括：获取待处理视频；对待处理视频进行分镜操作，以识别待处理视频所包括的多个镜头；针对该多个镜头中的每一个镜头，基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息，其中，该一个或多个分类模型被预训练；以及基于一个或多个分镜信息生成与待处理视频对应的分镜头脚本。
[0006]根据本公开的另一方面，还提供一种视频处理装置，包括：获取模块，被配置为获取待处理视频；分镜操作模块，被配置为对待处理视频进行分镜操...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法，包括：获取待处理视频；对所述待处理视频进行分镜操作，以识别所述待处理视频所包括的多个镜头；针对所述多个镜头中的每一个镜头，基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息，所述一个或多个分类模型被预训练；以及基于所述一个或多个分镜信息生成与所述待处理视频对应的分镜头脚本。2.根据权利要求1所述的方法，其中，对所述待处理视频进行分镜操作，以识别所述待处理视频包括的多个镜头包括：对所述待处理视频进行分帧操作，以获得多个视频帧；针对所述多个视频帧中的每一个视频帧，确定该视频帧与相邻视频帧之间的第一相似度；以及基于所述第一相似度确定该视频帧是否为所述待处理视频的边界视频帧，所述边界视频帧用于区分所述多个镜头中的相邻镜头。3.根据权利要求1所述的方法，还包括：识别所述多个镜头中的每一个镜头所属的场景。4.根据权利要求3所述的方法，其中，识别所述多个镜头中的每一个镜头所属的场景包括：针对所述每一个镜头，提取该镜头的图像特征；确定该镜头的图像特征与所述每个镜头的图像特征之间的多个第二相似度；基于所述多个第二相似度确定该镜头是否为所述待处理视频的场景边界镜头，所述场景边界镜头用于区分所述待处理视频中的相邻场景；以及根据所述场景边界镜头确定所述待处理视频包括的多个场景，并且对所述每个镜头进行归类。5.根据权利要求1
‑
4中任一项所述的方法，其中，针对所述多个镜头中的每一个镜头，基于一个或多个分类模型确定与该镜头相对应的一个或多个分镜信息包括：获取第一多个镜头样本及其预先确定的多个分镜信息；以所述第一多个镜头样本作为训练输入并且以所述预先确定的多个分镜信息作为训练输出，建立所述一个或多个分类模型；以及基于所述一个或多个分类模型对该镜头进行标签分类，所述标签分类指示与该镜头相对应的一个或多个分镜信息。6.根据权利要求5所述的方法，其中，所述一个或多个分类模型包括以下中的一个或多个：景别分类模型、运镜分类模型、焦距分类模型、拍摄角度分类模型以及场景分类模型。7.根据权利要求1
‑
4中任一项所述的方法，其中，还包括：针对所述多个镜头中的每一个镜头，生成与该镜头相对应的文字描述。8.根据权利要求7所述的方法，其中，针对所述多个镜头中的每一个镜头，生成与该镜头相对应的文字描述包括：获取第二多个镜头样本，所述第二多个镜头样本中的每一个镜头样本具有相对应的镜头样本文字描述；
以所述第二多个镜头样本作为训练输入并且以所述相对应的镜头样本文字描述作为训练输出建立镜头描述生成模型；以及针对所述第二多个镜头中的每一个镜头，将该镜头作为所述镜头描述生成模型的输入进行处理，以生成与该镜头相对应的文字描述，其中，所述镜头描述生成模型包括接收所述每一个镜头作为输入的编码器和生成与所述每一个镜头相对应的文字描述作为输出的解码器。9.根...

【专利技术属性】
技术研发人员：陈泽宇，王欣博，曹翔，黄雅勤，
申请(专利权)人：上海哔哩哔哩科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人