校准语音信号的方法、装置、设备及存储介质制造方法及图纸

技术编号:22333657 阅读:24 留言:0更新日期:2019-10-19 12:56
本申请涉及音视频处理领域,使用语音处理技术,公开了一种校准语音信号的方法、装置、设备及存储介质。在该方法中,从音视频流中,提取出目标人物的语音信号;按照播放时间顺序,从所述音视频流中包括所述目标人物的唇部的视频帧中,依次提取包括所述目标人物的唇部的图像;根据提取的包括所述目标人物的唇部的图像,校准所述目标人物的语音信号,得到校准的所述目标人物的语音信号。从而实现该目标人物的语音信号与包括所述目标人物的唇部的图像在播放时间上的同步,即在某个播放时间点上该唇部表达的语音内容与该语音信号表达的内容是相同的。

Method, device, equipment and storage medium for calibrating voice signal

【技术实现步骤摘要】
校准语音信号的方法、装置、设备及存储介质
本申请涉及音视频处理领域,尤其涉及一种校准语音信号的方法、装置、设备及存储介质。
技术介绍
音视频同步技术,在日常生活中得到应用,主要应用场景包括:安全防护验证通过、电视非直播音视频同步、自动添加视频字幕预处理、电影动画等的后期制作的音视频同步问题。音视频同步器(AudioVideoSynchronizer)可以对影片的音频和视频进行同步化处理。音频和视频不同步有两种情况:将声音与唇形或字幕进行比对,声音提前于图像,或者声音滞后于图像。可见,音视频不同步是人们认知相反的,与生活常识不符。常用的保证音视频同步的方法是,额外设置一个参考时钟。通过该参考时钟,控制语音信号与视频信号的同步。
技术实现思路
本申请提供了一种校准语音信号的方法、装置、设备及存储介质,准确地保证音视频同步结果更符合生活常识。第一方面,本申请提供了一种校准语音信号的方法,所述方法包括:从音视频流中,提取出目标人物的语音信号;按照播放时间顺序,从所述音视频流中包括所述目标人物的唇部的视频帧中,依次提取包括所述目标人物的唇部的图像;根据提取的包括所述目标人物的唇部的图像,校准所述目标人物的语音信号,得到校准的所述目标人物的语音信号。第二方面,本申请还提供了一种校准语音信号的装置,所述装置包括:提取单元,用于从音视频流中,提取出目标人物的语音信号;所述提取单元,用于按照播放时间顺序,从所述音视频流中包括所述目标人物的唇部的视频帧中,依次提取包括所述目标人物的唇部的图像;校准单元,用于根据提取的包括所述目标人物的唇部的图像,校准所述目标人物的语音信号,得到校准的所述目标人物的语音信号。第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的校准语音信号的方法。第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的校准语音信号的方法。本申请公开了一种校准语音信号的方法、装置、设备及存储介质。在该方法中,从音视频流中,提取出目标人物的语音信号;按照播放时间顺序,从所述音视频流中包括所述目标人物的唇部的视频帧中,依次提取包括所述目标人物的唇部的图像;根据提取的包括所述目标人物的唇部的图像,校准所述目标人物的语音信号,得到校准的所述目标人物的语音信号。从而实现该目标人物的语音信号与包括所述目标人物的唇部的图像在播放时间上的同步,即在某个播放时间点上该唇部表达的语音内容与该语音信号表达的内容是相同的。附图说明为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的校准语音信号的步骤示意流程图;图2为该目标人物的语音信号按照时间顺序排列的示意图;图3为包括该目标人物的唇部的图像按照时间顺序排列的示意图;图4为本申请实施例提供的一种校准语音信号的装置的示意性框图;图5为本申请实施例提供的一种计算机设备的结构示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。本申请的实施例提供了一种校准语音信号的方法、装置、计算机设备及存储介质。校准语音信号的方法可用于实现该目标人物的语音信号与包括所述目标人物的唇部的图像在播放时间上的同步,即在某个播放时间点上该唇部表达的语音内容与该语音信号表达的内容是相同的。下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。请参阅图1,图1是本申请的实施例提供的校准语音信号的方法的步骤示意流程图。步骤S101、从音视频流中,提取出目标人物的语音信号。在本实施例中,音视频流记录有一个或多个人物的对话场景。因此该音视频流由多个音视频帧按照播放时间顺序组成。一种可选实现方式,该音视频流中的音频流中包括人物的语音信号。该音视频流中的视频流中包括人物的视频帧。因此,本实施例可以从该音视频流提取人物的语音信号。本实施例还也可以按照播放时间顺序,从该音视频流中包括该人物的唇部的视频帧中,依次提取包括该人物的唇部的图像。可选地,音视频流可以是从网络服务器上获取或下载的,或者从本地获取的。例如可以从CCTV、BBC和YouTube等网络服务器下载新闻视频。可选地,本方法可以是应用于指定时间段内的视频片段。例如新闻视频中以每十分钟提取一段音视频片段作为本方法应用的音视频流。本实施例中,在步骤S101中,针对目标人物,从该音视频流中提取出该目标人物的语音信号。该目标人物的语音信号记录该目标人物的说话声音。可选地,步骤S101可以采用如下方式实现:利用SyncNet卷积神经网络模型,从所述音视频流中提取出所述目标人物的语音信号。利用SyncNet卷积神经网络模型训练该音视频流,可以从该音视频流中提取出该目标人物的语音信号。类似地,也可以从该音视频流中提取出其他人物的语音信号。可选地,步骤S101可以采用子步骤S1011、步骤S1012和步骤S1013实现。步骤S1011,从所述音视频流中,在只有所述目标人物存在的无噪声的视频片段中,提取所述目标人物的部分语音信号。使用该音视频流训练卷积神经网络(例如SyncNet卷积神经网络模型),将具有多个人物的子音视频流分离,从而剩余的子音视频流筛选出只有目标人物的子音视频流,然后从只有目标人物的子音视频流中筛选出无噪声的视频片段。从该视频片段中提取该目标人物的部分语音信号。可知,其他多个人物的指引视频中还包括其它部分的该目标人物的语音信号。另外,从只有目标人物的子音视频流中筛选出无噪声的视频片段中,提取包括所述目标人物的唇部的图像。可选地,从该视频片段中提取记录该目标人物的唇部的特征的区域,提取的区域为包括所述目标人物的唇部的图像。应知,视频片段中的每个视频帧均具有一张包括所述目标人物的唇部的图像。步骤S1012,基于提取的所述部分语音信号和所述视频片段中包括所述目标人物的唇部的图像,生成时频掩模。举例说明,对步骤S1011提取的该目标人物的部分语音信号进行编码,得到音频码流;并相应地对包括所述目标人物的唇部的图像进行编码,得到视频码流;然后,将对该音频码流和该视频码流融合,得到时频掩模。步骤S1013,基于所述时频掩模,从所述音视频流中提取出所述目标人物的语音信号。举例说明,利用SyncNet卷积神经网络模型,使用该时频掩模从该音视频流中提取出该目标人物的语音信号,该目标人物的语音信号如图2所示。提取的语音信本文档来自技高网...

【技术保护点】
1.一种校准语音信号的方法,其特征在于,包括:从音视频流中,提取出目标人物的语音信号;按照播放时间顺序,从所述音视频流中包括所述目标人物的唇部的视频帧中,依次提取包括所述目标人物的唇部的图像;根据提取的包括所述目标人物的唇部的图像,校准所述目标人物的语音信号,得到校准的所述目标人物的语音信号。

【技术特征摘要】
1.一种校准语音信号的方法,其特征在于,包括:从音视频流中,提取出目标人物的语音信号;按照播放时间顺序,从所述音视频流中包括所述目标人物的唇部的视频帧中,依次提取包括所述目标人物的唇部的图像;根据提取的包括所述目标人物的唇部的图像,校准所述目标人物的语音信号,得到校准的所述目标人物的语音信号。2.根据权利要求1所述的方法,其特征在于,所述根据提取的包括所述目标人物的唇部的图像校准所述目标人物的语音信号,包括:动态拉伸/收缩所述目标人物的语音信号,按照时间顺序对齐提取的包括所述目标人物的唇部的图像。3.根据权利要求2所述的方法,其特征在于,所述动态拉伸/收缩所述目标人物的语音信号,按照时间顺序对齐提取的包括所述目标人物的唇部的图像,包括:使用动态时间规整(DWT)算法,控制对所述目标人物的语音信号的动态拉伸/收缩,以按照时间顺序对齐提取的包括所述目标人物的唇部的图像。4.根据权利要求2或3所述的方法,其特征在于,所述动态拉伸/收缩所述目标人物的语音信号,按照时间顺序对齐提取的包括所述目标人物的唇部的图像,包括:按照时间顺序,基于提取的包括所述目标人物的唇部的图像,依次计算所述目标人物的语音信号与所述目标人物的唇部同步的同步误差;根据计算得到的同步误差,控制对所述目标人物的语音信号的动态拉伸/收缩。5.根据权利要求4所述的方法,其特征在于,所述计算所述目标人物的语音信号与所述目标人物的唇部同步的同步误差,包括:利用SyncNet卷积神经网络模型,计算所述目标...

【专利技术属性】
技术研发人员:王义文王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1