智能音视频同步方法技术

技术编号:28222678 阅读:19 留言:0更新日期:2021-04-28 09:49
本发明专利技术涉及一种智能音视频同步方法,包括以下步骤:S1、确定语言类型;S2、提取视频文件中的对话场景,形成一个视频数据段;S3、从视频数据段的视频图像中定位出唇部;S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;S6、将字幕数据A与视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;S7、根据偏移时间,将音频文件与字幕数据A同步。利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,利于音视频同步。利于音视频同步。利于音视频同步。

【技术实现步骤摘要】
智能音视频同步方法


[0001]本专利技术涉及多媒体领域,更具体地说,涉及一种智能音视频同步方法。

技术介绍

[0002]随着互联网多媒体技术的发展,音视频技术的应用场景越来越多,电影,直播,短视频等都有用到音视频技术。比如在观看电影时,有一个场景就是音视频的同步技术,比如一个电影,可能有几种语言的配音,而这些配音往往是后期配上去的,这样就存在一个问题,就是音视频的同步,很多时候都是人工来通过调整音频偏移时间来与视频画面同步。

技术实现思路

[0003]本专利技术要解决的技术问题在于,针对现有技术的上述音视频不同步缺陷,提供一种智能音视频同步方法。
[0004]本专利技术解决其技术问题所采用的技术方案是:构造一种智能音视频同步方法,包括以下步骤:
[0005]S1、确定语言类型;
[0006]S2、提取视频文件中的对话场景,形成一个视频数据段;
[0007]S3、从所述视频数据段的视频图像中定位出唇部;
[0008]S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
[0009]S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
[0010]S6、将所述字幕数据A与所述视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
[0011]S7、根据所述偏移时间,将所述音频文件与所述字幕数据A同步。
[0012]优选地,所述步骤S1中,语言类型为用户选择;或,语言类型为通过识别视频文件中的音频文件确定。
[0013]优选地,所述步骤S3中,先从所述视频数据段的视频图像中识别出人脸,再从所述人脸上的唇部特征及像素特征定位出唇部。
[0014]优选地,所述步骤S3中,利用机器视觉技术识别。
[0015]优选地,所述步骤S4中,利用深度学习的方法提取唇部特征。
[0016]优选地,所述步骤S4中,识别出的发音包括元音、辅音。
[0017]优选地,所述步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
[0018]优选地,所述步骤S7中,在同步时,以所述字幕数据A为参考。
[0019]优选地,所述步骤S6中,分析音频文件,生成与所述音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
[0020]优选地,利用语音识别技术,分析音频文件。
[0021]实施本专利技术的智能音视频同步方法,具有以下有益效果:利用深度学习技术实现
音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,从而为音视频同步的实现提供了现实基础。
附图说明
[0022]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0023]图1是本专利技术实施例中的智能音视频同步方法的流程示意图。
具体实施方式
[0024]为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本专利技术的具体实施方式。
[0025]如图1所示,本专利技术一个优选实施例中的智能音视频同步方法包括以下步骤:
[0026]S1、确定语言类型;
[0027]S2、提取视频文件中的对话场景,形成一个视频数据段;
[0028]S3、从视频数据段的视频图像中定位出唇部;
[0029]S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;
[0030]S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;
[0031]S6、将字幕数据A与视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;
[0032]S7、根据偏移时间,将音频文件与字幕数据A同步。
[0033]利用深度学习技术实现音视频的同步,以达到一个精准、高效、节省人力物力成本的解决方法,通过人物口型来识别人物说话内容,有了深度学习技术,人物口型识别率大大提高,从而为音视频同步的实现提供了现实基础。
[0034]优选地,步骤S1中,语言类型为用户选择,在其他实施例中,也可通过识别视频文件中的音频文件确定语言类型确定。
[0035]在一些实施例中,步骤S3中,先从视频数据段的视频图像中识别出人脸,再从人脸上的唇部特征及像素特征定位出唇部。
[0036]优选地,步骤S3中,利用机器视觉技术识别。
[0037]在一些实施例中,步骤S4中,利用深度学习的方法提取唇部特征。进一步地,步骤S4中,识别出的发音包括元音、辅音。
[0038]在一些实施例中,步骤S5中,对形成的发音内容打上时间戳后,再记录为字幕数据A。
[0039]在一些实施例中,步骤S6中,分析音频文件,生成与音频文件对应的字幕数据B,将字幕数据A与字幕数据B对比,分析出与字幕数据A的偏移时间。
[0040]优选地,步骤S7中,在同步时,以字幕数据A为参考。字幕数据A对应的是口型,让观众看到的和听到的都与口型能对上。
[0041]可以理解地,上述各技术特征可以任意组合使用而不受限制。
[0042]以上所述仅为本专利技术的实施例,并非因此限制本专利技术的专利范围,凡是利用本专利技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技
术领域,均同理包括在本专利技术的专利保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能音视频同步方法,其特征在于,包括以下步骤:S1、确定语言类型;S2、提取视频文件中的对话场景,形成一个视频数据段;S3、从所述视频数据段的视频图像中定位出唇部;S4、提取唇部特征,使用所选择的语言的口型数据库训练出的模型,完成口型识别,识别出发音;S5、对识别出的发音进行语音识别,形成发音内容,记录为字幕数据A;S6、将所述字幕数据A与所述视频数据段的音频文件对比,分析出与字幕数据A的偏移时间;S7、根据所述偏移时间,将所述音频文件与所述字幕数据A同步。2.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S1中,语言类型为用户选择;或,语言类型为通过识别视频文件中的音频文件确定。3.根据权利要求1所述的智能音视频同步方法,其特征在于,所述步骤S3中,先从所述视频数据段的视频图像中识别出人脸,再从所述人脸上的唇部特征及像素特征定位出唇部。4.根据权利要求3所述的智能...

【专利技术属性】
技术研发人员:段雄波任亮郭俊峰
申请(专利权)人:深圳市亿联智能有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1