视频插帧方法及装置制造方法及图纸

技术编号：35562938 阅读：18 留言：0更新日期：2022-11-12 15:46

本申请实施例公开了一种视频插帧方法及装置。其中主要方法包括：获取待处理的第一帧率视频帧序列；对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别，得到各视频帧的字幕区域；以及分别对第一帧率视频帧序列的各待插入视频帧进行运动估计，得到各待插入视频帧指向参考帧的第一运动矢量，所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧；将所述各待插入视频帧指向参考帧的第一运动矢量中，参考帧的字幕区域对应的运动矢量设置为0，得到所述各待插入视频帧指向参考帧的第二运动矢量；利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧，以得到第二帧率视频帧序列；其中，所述第二帧率大于所述第一帧率。本申请能够解决视频插帧后导致的字幕抖动现象。的字幕抖动现象。的字幕抖动现象。

全部详细技术资料下载

【技术实现步骤摘要】
视频插帧方法及装置

[0001]本申请涉及图像处理
，特别是涉及一种视频插帧方法及装置。

技术介绍

[0002]随着硬件和软件的快速发展，网络上视频资源呈现爆发式的增长，视频已日渐成为生活中信息的主要载体之一。视频插帧技术通过对视频的帧率进行提升，可以带来更流畅的观看体验，是目前超高清视频的核心技术之一。
[0003]例如，目前主流电影帧率仅为24帧，无法匹配主流60Hz刷新率的电视屏幕，会造成一些高速移动场景出现不连贯、模糊等现象，影响观看体验。视频插帧技术可以根据两个相邻帧的关系，估算物体运动，插入一张中间帧，提升视频帧率，从而让视频中的画面更加流畅、运动细节展示更加清晰。
[0004]然而，传统视频插帧技术中，并未对字幕问题进行优化处理，导致得到的高帧率视频中经常出现字幕抖动现象，严重影响了用户观看视频的体验。

技术实现思路

[0005]有鉴于此，本申请提供了一种视频插帧方法及装置，用以减少视频插帧后导致的字幕抖动现象。
[0006]本申请提供了如下方案：
[0007]第一方面，提供了一种视频插帧方法，该方法包括：
[0008]获取待处理的第一帧率视频帧序列；
[0009]对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别，得到各视频帧的字幕区域；以及分别对第一帧率视频帧序列的各待插入视频帧进行运动估计，得到各待插入视频帧指向参考帧的第一运动矢量，所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧；
[0010]将所述各待插入...

【技术保护点】

【技术特征摘要】
1.一种视频插帧方法，其特征在于，该方法包括：获取待处理的第一帧率视频帧序列；对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别，得到各视频帧的字幕区域；以及分别对第一帧率视频帧序列的各待插入视频帧进行运动估计，得到各待插入视频帧指向参考帧的第一运动矢量，所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧；将所述各待插入视频帧指向参考帧的第一运动矢量中，参考帧的字幕区域对应的运动矢量设置为0，得到所述各待插入视频帧指向参考帧的第二运动矢量；利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧，以得到第二帧率视频帧序列；其中，所述第二帧率大于所述第一帧率。2.根据权利要求1所述的方法，其特征在于，对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别，得到各视频帧的字幕区域包括：通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域，其中所述字幕区域识别模型为基于卷积神经网络的端到端模型；或者，通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域作为初始字幕区域，将具有相同初始字幕区域的连续视频帧融合为一个视频帧，将融合得到的视频帧输入所述字幕区域识别模型，得到所述字幕区域识别模型输出的字幕区域作为所述连续视频帧的字幕区域。3.根据权利要求2所述的方法，其特征在于，所述通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域作为初始字幕区域包括：对所述第一帧率序列进行抽帧处理，通过字幕区域识别模型获取抽取的各视频帧的初始字幕区域；确定抽取的视频帧中具有相同初始字幕区域的视频帧的第一帧和最后一帧；从所述第一帧开始将之前的各帧输入字幕区域识别模型，直至利用字幕区域识别模型输出的字幕区域确定出该相同初始字幕区域的起始视频帧；以及从所述最后一帧开始将之后的各帧输入字幕区域识别模型，直至利用字幕区域识别模型输出的字幕区域确定出该相同初始字幕区域的结束视频帧；确定从所述初始视频帧到所述结束视频帧的连续视频帧具有该相同初始字幕区域。4.根据权利要求2所述的方法，其特征在于，所述字幕区域识别模型采用如下方式预先训练得到：获取训练数据，所述训练数据包括多个包含字幕的视频帧样本以及对所述视频帧样本标注的字幕区域；将所述视频帧样本作为基于卷积神经网络的端到端模型的输入，将对所述视频帧样本标注的字幕区域作为所述端到端模型的目标输出，训练所述端到端模型以作为字幕区域识别模型。5.根据权利要求1所述的方法，其特征在于，利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧包括...

【专利技术属性】
技术研发人员：罗浩，陈佩，梅大为，
申请(专利权)人：北京优酷科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人