智能音视频同步方法技术

技术编号：28222678 阅读：19 留言：0更新日期：2021-04-28 09:49

本发明专利技术涉及一种智能音视频同步方法，包括以下步骤：S1、确定语言类型；S2、提取视频文件中的对话场景，形成一个视频数据段；S3、从视频数据段的视频图像中定位出唇部；S4、提取唇部特征，使用所选择的语言的口型数据库训练出的模型，完成口型识别，识别出发音；S5、对识别出的发音进行语音识别，形成发音内容，记录为字幕数据A；S6、将字幕数据A与视频数据段的音频文件对比，分析出与字幕数据A的偏移时间；S7、根据偏移时间，将音频文件与字幕数据A同步。利用深度学习技术实现音视频的同步，以达到一个精准、高效、节省人力物力成本的解决方法，通过人物口型来识别人物说话内容，有了深度学习技术，人物口型识别率大大提高，利于音视频同步。利于音视频同步。利于音视频同步。

全部详细技术资料下载

【技术实现步骤摘要】
智能音视频同步方法

[0001]本专利技术涉及多媒体领域，更具体地说，涉及一种智能音视频同步方法。

技术介绍

[0002]随着互联网多媒体技术的发展，音视频技术的应用场景越来越多，电影，直播，短视频等都有用到音视频技术。比如在观看电影时，有一个场景就是音视频的同步技术，比如一个电影，可能有几种语言的配音，而这些配音往往是后期配上去的，这样就存在一个问题，就是音视频的同步，很多时候都是人工来通过调整音频偏移时间来与视频画面同步。

技术实现思路

[0003]本专利技术要解决的技术问题在于，针对现有技术的上述音视频不同步缺陷，提供一种智能音视频同步方法。
[0004]本专利技术解决其技术问题所采用的技术方案是：构造一种智能音视频同步方法，包括以下步骤：
[0005]S1、确定语言类型；
[0006]S2、提取视频文件中的对话场景，形成一个视频数据段；
[0007]S3、从所述视频数据段的视频图像中定位出唇部；
[0008]S4、提取唇部特征，使用所选择的语言的口型数据库训练出的模型，完成口型识别，识别出发音；
[0009]S5、对识别出的发音进行语音识别，形成发音内容，记录为字幕数据A；
[0010]S6、将所述字幕数据A与所述视频数据段的音频文件对比，分析出与字幕数据A的偏移时间；
[0011]S7、根据所述偏移时间，将所述音频文件与所述字幕数据A同步。
[0012]优选地，所述步骤S1中，语言类型为用户选择；或，语言类型为通过识别视...

【技术保护点】

【技术特征摘要】
1.一种智能音视频同步方法，其特征在于，包括以下步骤：S1、确定语言类型；S2、提取视频文件中的对话场景，形成一个视频数据段；S3、从所述视频数据段的视频图像中定位出唇部；S4、提取唇部特征，使用所选择的语言的口型数据库训练出的模型，完成口型识别，识别出发音；S5、对识别出的发音进行语音识别，形成发音内容，记录为字幕数据A；S6、将所述字幕数据A与所述视频数据段的音频文件对比，分析出与字幕数据A的偏移时间；S7、根据所述偏移时间，将所述音频文件与所述字幕数据A同步。2.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S1中，语言类型为用户选择；或，语言类型为通过识别视频文件中的音频文件确定。3.根据权利要求1所述的智能音视频同步方法，其特征在于，所述步骤S3中，先从所述视频数据段的视频图像中识别出人脸，再从所述人脸上的唇部特征及像素特征定位出唇部。4.根据权利要求3所述的智能...

【专利技术属性】
技术研发人员：段雄波，任亮，郭俊峰，
申请(专利权)人：深圳市亿联智能有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人