基于口型特征的字幕调整方法以及装置制造方法及图纸

技术编号:29050624 阅读:48 留言:0更新日期:2021-06-26 06:13
本公开是关于一种基于口型特征的字幕调整方法、装置、电子设备以及存储介质。其中,该方法包括:基于图像识别述视频中发言人的唇部定位;选取唇部的预设唇部区域,生成基于时间变化的预设唇部区域唇部所占面积的时序曲线;基于预设拟合算法生成拟合曲线;基于所述字幕信息及所述字幕信息对应的标准口型信息生成基于字幕展示时间变化的预设唇部区域唇部所占面积的标准曲线,将所述标准曲线和拟合曲线对比,并根据对比结果调整所述字幕信息的展示时间。本公开通过基于唇部特征区域唇部占比面积统计的方式,开创性的实现了音频字幕与图像画面的时间匹配,极大的提高了用户体验。极大的提高了用户体验。极大的提高了用户体验。

【技术实现步骤摘要】
基于口型特征的字幕调整方法以及装置


[0001]本公开涉及互联网领域,具体而言,涉及一种基于口型特征的字幕调整方法、装置、电子设备以及计算机可读存储介质。

技术介绍

[0002]字幕(subtitles of motion picture)是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容,也泛指影视作品后期加工的文字。在电影银幕或电视机荧光屏下方出现的解说文字以及种种文字,如影片的片名、演职员表、唱词、对白、说明词以有人物介绍、地名和年代等都称为字幕。影视作品的对话字幕,一般出现在屏幕下方,而戏剧作品的字幕,则可能显示于舞台两旁或上方。
[0003]视频字幕是为了理解视频内容而产生的辅助工具,随着互联网的发展,视频字幕的配备越来越重要。视频字幕自动生成包括提取课程视频的音频流、音频流断句切分、语音识别、格式文本文件生成等技术原理。中文语音识别过程包括特征参数提取、声学模型、语言模型和模式匹配四个部分。现有技术中,字幕识别运用到的相关技术包括MFCC、HMM和N

gram等技术及其相关算法进行中文语音识别,M本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于口型特征的字幕调整方法,其特征在于,所述方法包括:基于对包含字幕信息的视频进行图像识别,完成对所述视频中发言人的唇部定位;选取唇部的预设唇部区域,对所述预设唇部区域中唇部所占面积进行统计并与时间戳对应,生成基于时间变化的预设唇部区域唇部所占面积的时序曲线;基于预设拟合算法对所述基于时间变化的预设唇部区域唇部所占面积的时序曲线进行拟合,生成拟合曲线;基于所述字幕信息及所述字幕信息对应的标准口型信息生成基于字幕展示时间变化的预设唇部区域唇部所占面积的标准曲线,将所述标准曲线和拟合曲线对比,并根据对比结果调整所述字幕信息的展示时间。2.如权利要求1所述的方法,其特征在于,所述基于对包含字幕信息的视频进行图像识别,完成对所述视频中发言人的唇部定位还包括:基于对包含字幕信息的视频进行图像识别,完成对所述视频中发言人的面部定位;基于面部特征值查找唇部区域,完成对所述视频中发言人的唇部定位。3.如权利要求1所述的方法,其特征在于,所述方法预设唇部区域为:唇部活跃区域中预设比例长度和宽度的矩形区域。4.如权利要求1所述的方法,其特征在于,所述选取唇部的预设唇部区域,对所述预设唇部区域中唇部所占面积进行统计并与时间戳对应,生成基于时间变化的预设唇部区域唇部所占面积的时序曲线还包括:所述选取唇部的预设唇部区域,对视频全部播放时间内所述预设唇部区域中唇部所占面积进行统计并与时间戳对应,生成基于时间变化的预设唇部区域唇部所占面积的全时时序曲线;所述选取唇部的预设唇部区域,对视频部分播放时间内对所述预设唇部区域中唇部所占面积进行统计并与时间戳对应,生成基于时间变化的预设唇部区域唇部所占面积的分时时序曲线。5.如权利要求4所述的方法,其特征在于,所述方法还包括:若在所述包含字幕信息的视频内超过预设时长未检测到发言人或未实现发言人面部/唇部定位,则对所述时序曲线进行分段,生成分时时序曲线。6.如权利要求1所述的方法,其特征在于,所述预设拟合算法为:f(t)=c1+c2g(a1,a2,a3,a4,a5);其中,f(t)为时序曲线,g(a1,a2,a3,a4,a5)为高斯函数,a1为决定最大值和最小值所在整条时序曲线的位置,c1和c2为控制整条曲线的基准及振幅,a4、a5和a2、a3分别为控制曲线左、右部分的宽度及斜率;其中,F(t)为拟合曲线,[t
L
,t
R
]表示时序曲线中待拟合部分的取值区间范围,f
L
(t)、f
C
(t)和f
R
(t)分别为该区间[t
L
,t
R
]内左边最小值、中间最大值及右边最小值所对应的局部拟合函数,α(t)和β(t)分别为介于0到1之间的剪切系数。7.如权利要求1所述的方法,其特征在于,所述基于预设拟合算法对所述基于时间变化
的预设唇部区域唇部所占面积的时序曲线进行拟合前,还包括对所述时序曲线进行滤波处理:其中,S
j+1
分别滤波后及滤波前时序曲线中预设唇部区域中唇部所占面积,C
i
为第i个唇部所占面积滤波过程系数,2m为滤波窗口宽度,N为滤波去长度,等于滑动数组的宽度2m+1。8.如权利要求1所述的方法,其特征在于,所述方法还包括:根据所述标准曲线的基值及幅值与所述拟合曲线滑动比较,根据在所述拟合曲线坐标轴上滑动长度...

【专利技术属性】
技术研发人员:卢启伟刘善果刘胜强
申请(专利权)人:深圳市鹰硕技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1