视频插帧方法及装置制造方法及图纸

技术编号:35562938 阅读:18 留言:0更新日期:2022-11-12 15:46
本申请实施例公开了一种视频插帧方法及装置。其中主要方法包括:获取待处理的第一帧率视频帧序列;对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别,得到各视频帧的字幕区域;以及分别对第一帧率视频帧序列的各待插入视频帧进行运动估计,得到各待插入视频帧指向参考帧的第一运动矢量,所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧;将所述各待插入视频帧指向参考帧的第一运动矢量中,参考帧的字幕区域对应的运动矢量设置为0,得到所述各待插入视频帧指向参考帧的第二运动矢量;利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧,以得到第二帧率视频帧序列;其中,所述第二帧率大于所述第一帧率。本申请能够解决视频插帧后导致的字幕抖动现象。的字幕抖动现象。的字幕抖动现象。

【技术实现步骤摘要】
视频插帧方法及装置


[0001]本申请涉及图像处理
,特别是涉及一种视频插帧方法及装置。

技术介绍

[0002]随着硬件和软件的快速发展,网络上视频资源呈现爆发式的增长,视频已日渐成为生活中信息的主要载体之一。视频插帧技术通过对视频的帧率进行提升,可以带来更流畅的观看体验,是目前超高清视频的核心技术之一。
[0003]例如,目前主流电影帧率仅为24帧,无法匹配主流60Hz刷新率的电视屏幕,会造成一些高速移动场景出现不连贯、模糊等现象,影响观看体验。视频插帧技术可以根据两个相邻帧的关系,估算物体运动,插入一张中间帧,提升视频帧率,从而让视频中的画面更加流畅、运动细节展示更加清晰。
[0004]然而,传统视频插帧技术中,并未对字幕问题进行优化处理,导致得到的高帧率视频中经常出现字幕抖动现象,严重影响了用户观看视频的体验。

技术实现思路

[0005]有鉴于此,本申请提供了一种视频插帧方法及装置,用以减少视频插帧后导致的字幕抖动现象。
[0006]本申请提供了如下方案:
[0007]第一方面,提供了一种视频插帧方法,该方法包括:
[0008]获取待处理的第一帧率视频帧序列;
[0009]对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别,得到各视频帧的字幕区域;以及分别对第一帧率视频帧序列的各待插入视频帧进行运动估计,得到各待插入视频帧指向参考帧的第一运动矢量,所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧;
[0010]将所述各待插入视频帧指向参考帧的第一运动矢量中,参考帧的字幕区域对应的运动矢量设置为0,得到所述各待插入视频帧指向参考帧的第二运动矢量;
[0011]利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧,以得到第二帧率视频帧序列;
[0012]其中,所述第二帧率大于所述第一帧率。
[0013]根据本申请实施例中一可实现的方式,对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别,得到各视频帧的字幕区域包括:
[0014]通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域,其中所述字幕区域识别模型为基于卷积神经网络的端到端模型;或者,
[0015]通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域作为初始字幕区域,将具有相同初始字幕区域的连续视频帧融合为一个视频帧,将融合得到的视频帧输入所述字幕区域识别模型,得到所述字幕区域识别模型输出的字幕区域作为
所述连续视频帧的字幕区域。
[0016]根据本申请实施例中一可实现的方式,所述通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域作为初始字幕区域包括:
[0017]对所述第一帧率序列进行抽帧处理,通过字幕区域识别模型获取抽取的各视频帧的初始字幕区域;
[0018]确定抽取的视频帧中具有相同初始字幕区域的视频帧的第一帧和最后一帧;
[0019]从所述第一帧开始将之前的各帧输入字幕区域识别模型,直至利用字幕区域识别模型输出的字幕区域确定出该相同初始字幕区域的起始视频帧;以及从所述最后一帧开始将之后的各帧输入字幕区域识别模型,直至利用字幕区域识别模型输出的字幕区域确定出该相同初始字幕区域的结束视频帧;
[0020]确定从所述初始视频帧到所述结束视频帧的连续视频帧具有该相同初始字幕区域。
[0021]根据本申请实施例中一可实现的方式,所述字幕区域识别模型采用如下方式预先训练得到:
[0022]获取训练数据,所述训练数据包括多个包含字幕的视频帧样本以及对所述视频帧样本标注的字幕区域;
[0023]将所述视频帧样本作为基于卷积神经网络的端到端模型的输入,将对所述视频帧样本标注的字幕区域作为所述端到端模型的目标输出,训练所述端到端模型以作为字幕区域识别模型。
[0024]根据本申请实施例中一可实现的方式,利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧包括:
[0025]依据所述第二运动矢量将参考帧向待插入视频帧进行映射得到第一映射视频帧,利用所述第一映射视频帧得到待插入视频帧;或者,
[0026]依据所述第二运动矢量将参考帧向待插入视频帧进行映射得到第一映射视频帧,对所述第一映射视频进行非字幕区域的优化得到第二映射视频帧,利用所述第二映射视频帧得到待插入视频帧。
[0027]根据本申请实施例中一可实现的方式,对所述第一映射视频进行非字幕区域的优化得到第二映射视频帧包括:
[0028]依据所述第二运动矢量将参考帧的字幕区域向待插入视频帧进行映射,得到字幕映射区域,确定所述字幕映射区域与所述参考帧的字幕区域的差异区域;
[0029]对所述第一映射视频帧中的所述差异区域进行背景填充,得到第二映射视频帧。
[0030]根据本申请实施例中一可实现的方式,对所述第一映射视频帧中的所述差异区域进行背景填充包括:
[0031]对所述差异区域中的各像素分别采样距离该像素最近的非字幕区域像素进行填充。
[0032]根据本申请实施例中一可实现的方式,若所述参考帧为待插入视频帧的上一视频帧和下一视频帧,则所述第一映射视频帧包括第一后向映射视频帧和第一前向映射视频帧,所述第二映射视频帧包括第二后向映射视频帧和第二前向映射视频帧;
[0033]利用所述第二映射视频帧得到待插入视频帧包括:对所述第二后向映射视频帧和
第二前向映射视频帧进行融合处理,得到待插入视频帧。
[0034]第二方面,提供了一种视频插帧装置,该装置包括:
[0035]视频获取单元,被配置为获取待处理的第一帧率视频帧序列;
[0036]字幕识别单元,被配置为对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别,得到各视频帧的字幕区域;
[0037]运动估计单元,被配置为分别对第一帧率视频帧序列的各待插入视频帧进行运动估计,得到各待插入视频帧指向参考帧的第一运动矢量,所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧;
[0038]运动保护单元,被配置为将所述各待插入视频帧指向参考帧的第一运动矢量中,参考帧的字幕区域对应的运动矢量设置为0,得到所述各待插入视频帧指向参考帧的第二运动矢量;
[0039]插入帧预测单元,被配置为利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧,以得到第二帧率视频帧序列;其中,所述第二帧率大于所述第一帧率。
[0040]第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。
[0041]第四方面,提供了一种电子设备,其特征在于,包括:
[0042]一个或多个处理器;以及
[0043]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行上述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频插帧方法,其特征在于,该方法包括:获取待处理的第一帧率视频帧序列;对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别,得到各视频帧的字幕区域;以及分别对第一帧率视频帧序列的各待插入视频帧进行运动估计,得到各待插入视频帧指向参考帧的第一运动矢量,所述参考帧为待插入视频帧的前一视频帧和/或后一视频帧;将所述各待插入视频帧指向参考帧的第一运动矢量中,参考帧的字幕区域对应的运动矢量设置为0,得到所述各待插入视频帧指向参考帧的第二运动矢量;利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧,以得到第二帧率视频帧序列;其中,所述第二帧率大于所述第一帧率。2.根据权利要求1所述的方法,其特征在于,对所述第一帧率视频帧序列中的各视频帧分别进行字幕区域识别,得到各视频帧的字幕区域包括:通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域,其中所述字幕区域识别模型为基于卷积神经网络的端到端模型;或者,通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域作为初始字幕区域,将具有相同初始字幕区域的连续视频帧融合为一个视频帧,将融合得到的视频帧输入所述字幕区域识别模型,得到所述字幕区域识别模型输出的字幕区域作为所述连续视频帧的字幕区域。3.根据权利要求2所述的方法,其特征在于,所述通过字幕区域识别模型获取所述第一帧率视频帧序列中的各视频帧的字幕区域作为初始字幕区域包括:对所述第一帧率序列进行抽帧处理,通过字幕区域识别模型获取抽取的各视频帧的初始字幕区域;确定抽取的视频帧中具有相同初始字幕区域的视频帧的第一帧和最后一帧;从所述第一帧开始将之前的各帧输入字幕区域识别模型,直至利用字幕区域识别模型输出的字幕区域确定出该相同初始字幕区域的起始视频帧;以及从所述最后一帧开始将之后的各帧输入字幕区域识别模型,直至利用字幕区域识别模型输出的字幕区域确定出该相同初始字幕区域的结束视频帧;确定从所述初始视频帧到所述结束视频帧的连续视频帧具有该相同初始字幕区域。4.根据权利要求2所述的方法,其特征在于,所述字幕区域识别模型采用如下方式预先训练得到:获取训练数据,所述训练数据包括多个包含字幕的视频帧样本以及对所述视频帧样本标注的字幕区域;将所述视频帧样本作为基于卷积神经网络的端到端模型的输入,将对所述视频帧样本标注的字幕区域作为所述端到端模型的目标输出,训练所述端到端模型以作为字幕区域识别模型。5.根据权利要求1所述的方法,其特征在于,利用所述各待插入视频帧指向参考帧的第二运动矢量预测各待插入视频帧包括...

【专利技术属性】
技术研发人员:罗浩陈佩梅大为
申请(专利权)人:北京优酷科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1