同步视频数据和音频数据的方法、存储介质和电子设备技术

技术编号：19638793 阅读：48 留言：0更新日期：2018-12-01 19:01

公开了一种同步视频数据和音频数据的方法、存储介质和电子设备。本发明专利技术实施例通过获取视频数据中人脸的唇部状态变化与音频数据中语音信号强度的变化，通过滑动互相关获取使得唇部状态变化和语音信号强度变化相关度最高的时间轴偏差，基于该时间轴偏差进行同步。由此，可以快速进行视频数据和音频数据的音画同步。

全部详细技术资料下载

【技术实现步骤摘要】
同步视频数据和音频数据的方法、存储介质和电子设备
本专利技术涉及数字信号处理领域，具体涉及一种数据同步方法、存储介质和电子设备。
技术介绍
随着互联网技术的高速发展，在线视频观看的应用也越来越广泛。当前视频多采用音频数据与视频数据分别存储在不同文件中，在播放时，分别从视频文件和音频文件读取信息进行播放。但是，如果分别存储的音频数据与视频数据的时间轴不同步，则会导致音画不同步的问题。现有技术进行视频数据和音频数据的同步通常依赖于时间戳信息，但由于视频数据与音频数据会存在传输延迟误差的现象，基于时间戳进行同步仍然可能导致同步偏离。
技术实现思路
有鉴于此，本专利技术实施例提出一种同步视频数据和音频数据的方法、存储介质和电子设备，可以在不依赖时间戳信息的情况下实现视频数据与音频数据的同步。根据本专利技术实施例的第一方面，提供一种同步视频数据和音频数据的方法，其中，所述方法包括：根据视频数据获取第一序列，所述第一序列为人脸特征参数的时间序列，所述人脸特征参数用于表征视频数据中人脸的唇部(也即，嘴部)状态；根据音频数据获取第二序列，所述第二序列为音频数据中语音信号强度的时间序列...

【技术保护点】
1.一种同步视频数据和音频数据的方法，其特征在于，所述方法包括：根据视频数据获取第一序列，所述第一序列为人脸特征参数的时间序列，所述人脸特征参数用于表征视频数据中人脸的唇部状态；根据音频数据获取第二序列，所述第二序列为音频数据中语音信号强度的时间序列，所述第二序列与所述第一序列采用相同的采样周期；对所述第一序列与所述第二序列进行滑动互相关，以获得不同时间轴偏差对应的互相关系数；根据具有最大互相关系数的时间轴偏差同步所述视频数据和所述音频数据。

【技术特征摘要】
1.一种同步视频数据和音频数据的方法，其特征在于，所述方法包括：根据视频数据获取第一序列，所述第一序列为人脸特征参数的时间序列，所述人脸特征参数用于表征视频数据中人脸的唇部状态；根据音频数据获取第二序列，所述第二序列为音频数据中语音信号强度的时间序列，所述第二序列与所述第一序列采用相同的采样周期；对所述第一序列与所述第二序列进行滑动互相关，以获得不同时间轴偏差对应的互相关系数；根据具有最大互相关系数的时间轴偏差同步所述视频数据和所述音频数据。2.根据权利要求1所述的方法，其特征在于，根据所述视频数据获取第一序列包括：按照预定采样周期对所述视频数据采样以获取第一图像序列，所述第一图像序列包括采样获取的图像；获取所述第一图像序列中每一个图像对应的所述人脸特征参数，以获取所述第一序列。3.根据权利要求2所述的方法，其特征在于，获取所述第一图像序列中每一个图像对应的所述人脸特征参数包括：对所述第一图像序列中的每一个图像进行人脸检测获取每一个图像的人脸区域信息；根据所述第一图像序列中的每一个图像的对应的人脸区域信息获取人脸唇部关键点信息；根据所述第一图像序列中的每一个图像的人脸唇部关键点信息获取所述人脸特征参数。4.根据权利要求1所述的方法，其特征在于，所述人脸特征参数为：人脸唇部图像的高度、人脸唇部图像的面积和人脸唇部图像的高度与宽度的比值中的任一项；或者包含人脸唇部图像的高度、人脸唇部图像的面积和人脸唇部图...

【专利技术属性】
技术研发人员：王正博，沈亮，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人