校准语音信号的方法、装置、设备及存储介质制造方法及图纸

技术编号：22333657 阅读：24 留言：0更新日期：2019-10-19 12:56

本申请涉及音视频处理领域，使用语音处理技术，公开了一种校准语音信号的方法、装置、设备及存储介质。在该方法中，从音视频流中，提取出目标人物的语音信号；按照播放时间顺序，从所述音视频流中包括所述目标人物的唇部的视频帧中，依次提取包括所述目标人物的唇部的图像；根据提取的包括所述目标人物的唇部的图像，校准所述目标人物的语音信号，得到校准的所述目标人物的语音信号。从而实现该目标人物的语音信号与包括所述目标人物的唇部的图像在播放时间上的同步，即在某个播放时间点上该唇部表达的语音内容与该语音信号表达的内容是相同的。

Method, device, equipment and storage medium for calibrating voice signal

全部详细技术资料下载

【技术实现步骤摘要】
校准语音信号的方法、装置、设备及存储介质
本申请涉及音视频处理领域，尤其涉及一种校准语音信号的方法、装置、设备及存储介质。
技术介绍
音视频同步技术，在日常生活中得到应用，主要应用场景包括：安全防护验证通过、电视非直播音视频同步、自动添加视频字幕预处理、电影动画等的后期制作的音视频同步问题。音视频同步器(AudioVideoSynchronizer)可以对影片的音频和视频进行同步化处理。音频和视频不同步有两种情况：将声音与唇形或字幕进行比对,声音提前于图像，或者声音滞后于图像。可见，音视频不同步是人们认知相反的，与生活常识不符。常用的保证音视频同步的方法是，额外设置一个参考时钟。通过该参考时钟，控制语音信号与视频信号的同步。
技术实现思路
本申请提供了一种校准语音信号的方法、装置、设备及存储介质，准确地保证音视频同步结果更符合生活常识。第一方面，本申请提供了一种校准语音信号的方法，所述方法包括：从音视频流中，提取出目标人物的语音信号；按照播放时间顺序，从所述音视频流中包括所述目标人物的唇部的视频帧中，依次提取包括所述目标人物的唇部的图像；根据提取的包括所述目标人物的唇部的图像，校准所述目标人物的语音信号，得到校准的所述目标人物的语音信号。第二方面，本申请还提供了一种校准语音信号的装置，所述装置包括：提取单元，用于从音视频流中，提取出目标人物的语音信号；所述提取单元，用于按照播放时间顺序，从所述音视频流中包括所述目标人物的唇部的视频帧中，依次提取包括所述目标人物的唇部的图像；校准单元，用于根据提取的包括所述目标人物的唇部的图像，校准所述目标人物的语音信号，得到校...

【技术保护点】
1.一种校准语音信号的方法，其特征在于，包括：从音视频流中，提取出目标人物的语音信号；按照播放时间顺序，从所述音视频流中包括所述目标人物的唇部的视频帧中，依次提取包括所述目标人物的唇部的图像；根据提取的包括所述目标人物的唇部的图像，校准所述目标人物的语音信号，得到校准的所述目标人物的语音信号。

【技术特征摘要】
1.一种校准语音信号的方法，其特征在于，包括：从音视频流中，提取出目标人物的语音信号；按照播放时间顺序，从所述音视频流中包括所述目标人物的唇部的视频帧中，依次提取包括所述目标人物的唇部的图像；根据提取的包括所述目标人物的唇部的图像，校准所述目标人物的语音信号，得到校准的所述目标人物的语音信号。2.根据权利要求1所述的方法，其特征在于，所述根据提取的包括所述目标人物的唇部的图像校准所述目标人物的语音信号，包括：动态拉伸/收缩所述目标人物的语音信号，按照时间顺序对齐提取的包括所述目标人物的唇部的图像。3.根据权利要求2所述的方法，其特征在于，所述动态拉伸/收缩所述目标人物的语音信号，按照时间顺序对齐提取的包括所述目标人物的唇部的图像，包括：使用动态时间规整(DWT)算法，控制对所述目标人物的语音信号的动态拉伸/收缩，以按照时间顺序对齐提取的包括所述目标人物的唇部的图像。4.根据权利要求2或3所述的方法，其特征在于，所述动态拉伸/收缩所述目标人物的语音信号，按照时间顺序对齐提取的包括所述目标人物的唇部的图像，包括：按照时间顺序，基于提取的包括所述目标人物的唇部的图像，依次计算所述目标人物的语音信号与所述目标人物的唇部同步的同步误差；根据计算得到的同步误差，控制对所述目标人物的语音信号的动态拉伸/收缩。5.根据权利要求4所述的方法，其特征在于，所述计算所述目标人物的语音信号与所述目标人物的唇部同步的同步误差，包括：利用SyncNet卷积神经网络模型，计算所述目标...

【专利技术属性】
技术研发人员：王义文，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人