一种音视频同步优化的方法及设备技术

技术编号：28049698 阅读：31 留言：0更新日期：2021-04-14 13:06

本发明专利技术提供一种音视频同步优化的方法及设备，该设备包括：根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。本发明专利技术提供的音视频同步优化的方法及设备，解决了现有的音视频同步方案无法解决的源文件中PTS数值错误引入的音视频不同步问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种音视频同步优化的方法及设备

[0001]本专利技术涉及音视频同步
，特别涉及一种音视频同步优化的方法及设备。

技术介绍

[0002]带有声音和图像的视频，在播放的时候都需要处理音视频同步的问题。音视频同步是指影片中声音与画面的协调一致，也就是当用户看视频时听到的声音和出现的画面相对应时，不会感觉到画面有超前或者延后的情况。音视频同步是多媒体系统服务质量(QoS)研究中的一项重要内容，不同步将非常严重的影响到用户的观看体验。
[0003]目前解决音视频同步问题的方案是选择一个参考时钟，在生成音视频数据流时依据参考时钟上的时间给每个音视/视频数据帧都打上显示时间戳PTS，在播放过程中完成解码后，读取音视/视频数据帧上的PTS，同时参考当前参考时钟上的时间来安排播放。
[0004]现有音视频同步方案要求在生成音视/视频数据帧时必须打上正确的显示时间戳PTS。因此在音视频文件中的PTS值无异常的情况下，能够取得比较好的音视频同步效果。
[0005]但是，在日常工作和生活中，很多音视频文件在压缩生产的...

【技术保护点】

【技术特征摘要】
1.一种音视频同步优化的方法，其特征在于，包括：根据解码后的音频数据和视频数据分别对应的时间戳，对所述音频数据和视频数据进行初步同步；利用计算机视觉分析技术，对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象；利用PCM数据校验方法，对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段；将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出。2.根据权利要求1所述的方法，其特征在于，将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，包括：将所述内容识别的结果和声音识别的结果作为输入特征，输入到经验和概率模型中得到不同步的概率；确定不同步的概率大于设定阈值时，确定所述视频片段和音频片段不同步。3.根据权利要求1所述的方法，其特征在于，确定所述视频片段和音频片段不同步时，对所述音频数据和视频数据进行再次同步后输出，包括：确定所述视频片段和音频片段不同步时，输出是否进行同步调整的提示信息；响应进行同步调整的指示信息，对所述音频数据和视频数据进行再次同步后输出；或者响应接收到的不进行同步调整的指示信息，输出所述音频数据和视频数据。4.根据权利要求1所述的方法，其特征在于，将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，具体包括：所述声音识别结果为有声片段，但所述内容识别结果为无声源对象；或者所述声音识别结果为无声片段，但所述内容识别结果为有声源对象。5.根据权利要求4所述的方法，其特征在于，将内容识别的结果和声音识别的结果进行匹配，确定所述视频片段和音频片段不同步，还包括：所述声音识别结果为有声片段，所述内容识别结果为有声源对象，但所述音频片段中声音的声源对象类型与所述视频片段中声音的声源对象类型不一致。6.根据权利要求1所述的方法，其特征在于：所述对当前音频数据输出点前后预设时间内的音频片段进行声音识别，判断是否是有声音的片段，包括：对所述音频片段提取音频数据特征，输入到已训练的第一音频分析模型，获得所述第一音频分析模型输出的是否有声音的声音识别结果，所述第一音频分析模型用于根据音频数据特征识别是否有声音；所述对当前视频输出点的视频数据所在的视频片段进行内容识别，判断是否存在声源对象，包...

【专利技术属性】
技术研发人员：赵登，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人