重构360度音频/视频文件的方法和装置制造方法及图纸

技术编号:19027087 阅读:3 留言:0更新日期:2018-09-26 20:03
本发明专利技术公开一种重构360度音频/视频文件的方法和装置。该方法包括:接收由多个捕获设备捕获的多个音频轨道和视频轨道,多个音频轨道至少包括第一和第二音频轨道,多个视频轨道至少包括第一和第二视频轨道,第一捕获设备捕获第一音频轨道和第一视频轨道,第二捕获设备捕获第二音频轨道和第二视频轨道;以及如果从第一视频轨道和第二视频轨道获得的视频同步信息可用:使用视频同步信息将第一音频轨道、第一视频轨道与第二音频轨道、第二视频轨道对齐;从包括第一音频轨道和第二音频轨道的对齐音频轨道生成360度音频;从包括第一视频轨道和第二视频轨道的对齐视频轨道生成360度视频;以及提供包括360度音频和360度视频的360度音频和视频数据。

【技术实现步骤摘要】
重构360度音频/视频文件的方法和装置
本专利技术有关于从多个捕获设备产生的多个音频和视频轨道的360度音频和视频重构(reconstruction)。具体地说,本专利技术涉及不同音频和视频轨道(track)之间的音频和视频同步。
技术介绍
360度视频,也称为沉浸式视频(immersivevideo),是一种新兴的技术,它能提供“感觉身临其境(feelingassensationofpresent)”。通过围绕用户覆盖全景(panoramicview)的环绕场景,特别是360度视野,使用户获得沉浸感。“感觉身临其境”可以进一步通过立体渲染来提高。因此,全景视频被广泛应用于虚拟现实(VirtualReality,VR)应用中。360度视频涉及使用多台摄像机来捕获一个场景,以覆盖全景,如360度视野。伴随着音频,一组相机(或捕获设备)被安排捕获每个视频的360度视野。通常两个或更多捕获设备用于捕获与相关音频的360度视频。来自多个捕获设备的视频和音频被用来形成重构的360度视频和重构的360度音频。在本专利技术中,来自每个捕获设备的音频和视频分别被称为音频轨道和视频轨道。在360度音频/视频录制方案中,从多个捕获设备记录的视频和音频轨道需要对齐(aligned)。每个捕获设备可以使用自己的设置。360度音频和360度视频也分别被缩写为“360音频”和“360视频”。通常每个捕获设备都可以在自己的时钟上操作,并且在不同的捕获设备之间没有共同时钟(commonclock)。因此,来自各种捕获设备的音频/视频轨道可能不是对齐的。也有其他因素造成的各种捕获设备之间的对齐问题。例如,捕获设备的设备设置可能是不同的。图1为在360度音频和视频重构处理中的对齐问题的方案。如图1所示,使用N个捕获设备(110-1,110,…,110-N)以及N是等于或大于2的整数。每个捕获设备产生相应的音频轨道(120-1,120-2,…,或120-N)和相应的视频轨道(130-1,130-2,…,或130-N)。这些音频轨道被提供给360度音频重构单元140,以生成重构的360度音频,这些视频轨道被提供给360度视频重构单元150,以生成重构的360度视频。重构的360度音频和重构的360度视频都被包含在360度文件160中。由于不同的捕获设备的音频轨道和视频轨道可能是不同步的,对于360度音频重构和360度视频重构来说,如何同步这些音频和视频轨道成为一个问题。在该领域中众所周知各种各样的360度音频重构技术。例如,音频信号处理可以作为产生360度音频的一种手段,用来产生空间音频(spatialaudio)。关于360度音频重构,用户可以根据他/她的观看方向听到声音,实现身临其境的声音体验。有多种不同的360度音频形式被广泛使用,如基于信道的,基于对象的或基于场景的。在本领域中,已知各种图像/视频拼接技术。也有各种虚拟现实视频格式(VRvideoformats)或各种360度视频格式,如球形格式(sphericalformat)和立方格式(cubicformat)。这些技术是本领域已知的技术。由于本专利技术的重点是在各种音频/视频轨道之间的同步问题,因此在本申请中省略360度音频重构和360度视频重构的细节。由于各种音频/视频轨道之间的同步问题,因此希望开发出音频/视频对齐技术,以正确对齐来自各种捕获设备的音频/视频轨道,以提高重构的360度音频和视频的质量。
技术实现思路
有鉴于此,本专利技术提供一种重构360度音频/视频文件的方法和装置。依据本专利技术一实施方式,提供一种重构360度音频/视频文件的方法,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,包括:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道与所述第二音频轨道和所述第二视频轨道分别对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。依据本专利技术另一实施方式,提供一种重构360度音频/视频文件的装置,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,包括:所述装置包括一个或多个电子电路或处理器,并用于执行以下步骤:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道与所述第二音频轨道和所述第二视频轨道对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。本专利技术所提供的重构360度音频/视频文件的方法和装置,能够正确对齐来自各种捕获设备的音频/视频轨道,并提高重构的360度音频和视频的质量。对于已经阅读后续由各附图及内容所显示的较佳实施方式的本领域的技术人员来说,本专利技术的各目的是明显的。附图说明图1为在360度音频和视频重构处理中的对齐问题的方案,其中来自N个捕获设备的N个音频/视频轨道被重构以分别形成360度音频和360度视频,以及音频/视频轨道可能会偏移。图2为基于对齐技术的波峰的实施例,在音频轨道#1中的波峰和在音频轨道#2中的相应的波峰被识别并用于音频对齐。图3为基于信号能量的特征段检测的实施例,其中在音频轨道#1检测到三个特征段,以及在音频轨道#2检测到相应的三个特征段。图4为使用尺度不变特征变换(SIFT)的视频拼接的实施例。图5为根据本专利技术的实施例的方案1的音频/视频对齐处理的示例,其中检测到明显特征段,并且没有检测到明显对象运动。图6A为根据本专利技术的方案1的一实施例的基于明显特征段的音频同步点确定的示例,其中在音频轨道#1和音频轨道#2中检测到明显特征信号。图6B为根据本专利技术的方案1的一实施例的使用音频同步点的音频轨道和视频轨道对齐的示例。图7为根据本专利技术一实施例的方案2的音频/视频对齐处理的示例,其中没有检测到明显特征段,但检测到明显对象运动。图8A为根据本专利技术的方案2的一实施例的基于明显对象运动的音频同步点确定的示例,其中在视频轨道#1和视频轨道#2检测到明显对象运动。图8B为根据本专利技术的方案2的一实施例的音频/视频对齐的示例,其中使用视频同步点来辅助音频对齐。图9为根据本专利技术一实施例的方案3的音频/视频对本文档来自技高网
...

【技术保护点】
1.一种重构360度音频/视频文件的方法,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,其特征在于,包括:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道分别与所述第二音频轨道和所述第二视频轨道对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。

【技术特征摘要】
2017.03.08 US 15/453,7811.一种重构360度音频/视频文件的方法,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,其特征在于,包括:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道分别与所述第二音频轨道和所述第二视频轨道对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。2.如权利要求1所述的重构360度音频/视频文件的方法,其特征在于,所述方法还包括:检测所述第一音频轨道和所述第二音频轨道中的一个或多个明显特征段,并检测所述第一视频轨道和所述第二视频轨道中的明显对象运动。3.如权利要求2所述的重构360度音频/视频文件的方法,其特征在于,通过将音频信号能量与音频阈值进行比较来检测所述一个或多个明显特征段,如果一个音频段的所述音频信号能量超过所述音频阈值,则所述一个音频段为一个明显特征段。4.如权利要求2所述的重构360度音频/视频文件的方法,其特征在于,如果没有检测到所述一个或多个明显特色段,并且检测到所述明显对象运动,根据所述明显对象运动从所述第一视频轨道和所述第二视频轨道获得的视频同步点被作为视频同步信息,以及所述视频同步点被用于将所述第一音频轨道和所述第一视频轨道与所述第二音频轨道和所述第二视频轨道对齐。5.如权利要求4所述的重构360度音频/视频文件的方法,其特征在于,通过使用所述视频同步点作为所述第一音频轨道与所述第二音频轨道之间的自相关的参考起始点,使用自相关来将所述第一音频轨道与所述第二音频轨道对齐,从而改善音频对齐。6.如权利要求4所述的重构360度音频/视频文件的方法,其特征在于,使用具有特征匹配的视频拼接以从所述对齐视频轨道产生所述360度视频。7.如权利要求2所述的重构360度音频/视频文件的方法,其特征在于,如果检测到至少一个明显特征段以及检测到所述明显对象运动,从所述至少一个明显特征段获得音频同步点,以及根据所述明显对象运动从所述第一视频轨道和所述第二视频轨道获得视频同步点以作为所述视频同步信息。8.如权利要求7所述的重构360度音频/视频文件的方法,其特征在于,所述方法还包括:确定所述音频同步点和所述视频同步点是否匹配。9.如权利要求8所述的重构360度音频/视频文件的方法,其特征在于,如果所述音频同步点和所述视频同步点不匹配,再次执行所述检测所述第一音频轨道和所述第二音频轨道中的一个或多个明显特征段以及检测所述第一视频轨道和所述第二视频轨道中的明显对象运动,以得到具有更好的匹配的新的音频同步点和新的视频同步点。10.如权利要求8所述的重构360度音频/视频文件的方法,其特征在于,如果所述音频同步点和所述视频同步点相匹配,所述方法还包括基于所述音频同步点和所述视频同步点评估音频/视频匹配误差,基于可以达到较小的音频/视频匹配误差的一个选择,选择所述音频同步点或所述视频同步点以用于音频/视频对齐。11.如权利要求10所述的重构360度音频/视频文件的方法,其特征在于,如果所述音频同步点可以达到所述较小的音频/视频匹配错误,则使用所述音...

【专利技术属性】
技术研发人员:李佳盈施信玮许肇凌张胜凯郑尧文
申请(专利权)人:联发科技股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1