【技术实现步骤摘要】
重构360度音频/视频文件的方法和装置
本专利技术有关于从多个捕获设备产生的多个音频和视频轨道的360度音频和视频重构(reconstruction)。具体地说,本专利技术涉及不同音频和视频轨道(track)之间的音频和视频同步。
技术介绍
360度视频,也称为沉浸式视频(immersivevideo),是一种新兴的技术,它能提供“感觉身临其境(feelingassensationofpresent)”。通过围绕用户覆盖全景(panoramicview)的环绕场景,特别是360度视野,使用户获得沉浸感。“感觉身临其境”可以进一步通过立体渲染来提高。因此,全景视频被广泛应用于虚拟现实(VirtualReality,VR)应用中。360度视频涉及使用多台摄像机来捕获一个场景,以覆盖全景,如360度视野。伴随着音频,一组相机(或捕获设备)被安排捕获每个视频的360度视野。通常两个或更多捕获设备用于捕获与相关音频的360度视频。来自多个捕获设备的视频和音频被用来形成重构的360度视频和重构的360度音频。在本专利技术中,来自每个捕获设备的音频和视频分别被称为音频轨道和视频轨道。在360度音频/视频录制方案中,从多个捕获设备记录的视频和音频轨道需要对齐(aligned)。每个捕获设备可以使用自己的设置。360度音频和360度视频也分别被缩写为“360音频”和“360视频”。通常每个捕获设备都可以在自己的时钟上操作,并且在不同的捕获设备之间没有共同时钟(commonclock)。因此,来自各种捕获设备的音频/视频轨道可能不是对齐的。也有其他因素造成的各种捕获设备之间的 ...
【技术保护点】
1.一种重构360度音频/视频文件的方法,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,其特征在于,包括:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道分别与所述第二音频轨道和所述第二视频轨道对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。
【技术特征摘要】
2017.03.08 US 15/453,7811.一种重构360度音频/视频文件的方法,所述360度音频/视频文件是由多个捕获设备从多个音频/视频轨道捕获的,其特征在于,包括:接收由所述多个捕获设备捕获的多个音频轨道和多个视频轨道,其中所述多个音频轨道至少包括第一音频轨道和第二音频轨道,所述多个视频轨道至少包括第一视频轨道和第二视频轨道,所述第一音频轨道和所述第一视频轨道由第一捕获设备捕获,以及所述第二音频轨道和所述第二视频轨道由第二捕获设备捕获;以及如果从所述第一视频轨道和所述第二视频轨道获得的视频同步信息可用:使用所述视频同步信息将所述第一音频轨道和所述第一视频轨道分别与所述第二音频轨道和所述第二视频轨道对齐;从包括所述第一音频轨道和所述第二音频轨道的对齐音频轨道生成360度音频;从包括所述第一视频轨道和所述第二视频轨道的对齐视频轨道生成360度视频;以及提供包括所述360度音频和所述360度视频的360度音频和视频数据。2.如权利要求1所述的重构360度音频/视频文件的方法,其特征在于,所述方法还包括:检测所述第一音频轨道和所述第二音频轨道中的一个或多个明显特征段,并检测所述第一视频轨道和所述第二视频轨道中的明显对象运动。3.如权利要求2所述的重构360度音频/视频文件的方法,其特征在于,通过将音频信号能量与音频阈值进行比较来检测所述一个或多个明显特征段,如果一个音频段的所述音频信号能量超过所述音频阈值,则所述一个音频段为一个明显特征段。4.如权利要求2所述的重构360度音频/视频文件的方法,其特征在于,如果没有检测到所述一个或多个明显特色段,并且检测到所述明显对象运动,根据所述明显对象运动从所述第一视频轨道和所述第二视频轨道获得的视频同步点被作为视频同步信息,以及所述视频同步点被用于将所述第一音频轨道和所述第一视频轨道与所述第二音频轨道和所述第二视频轨道对齐。5.如权利要求4所述的重构360度音频/视频文件的方法,其特征在于,通过使用所述视频同步点作为所述第一音频轨道与所述第二音频轨道之间的自相关的参考起始点,使用自相关来将所述第一音频轨道与所述第二音频轨道对齐,从而改善音频对齐。6.如权利要求4所述的重构360度音频/视频文件的方法,其特征在于,使用具有特征匹配的视频拼接以从所述对齐视频轨道产生所述360度视频。7.如权利要求2所述的重构360度音频/视频文件的方法,其特征在于,如果检测到至少一个明显特征段以及检测到所述明显对象运动,从所述至少一个明显特征段获得音频同步点,以及根据所述明显对象运动从所述第一视频轨道和所述第二视频轨道获得视频同步点以作为所述视频同步信息。8.如权利要求7所述的重构360度音频/视频文件的方法,其特征在于,所述方法还包括:确定所述音频同步点和所述视频同步点是否匹配。9.如权利要求8所述的重构360度音频/视频文件的方法,其特征在于,如果所述音频同步点和所述视频同步点不匹配,再次执行所述检测所述第一音频轨道和所述第二音频轨道中的一个或多个明显特征段以及检测所述第一视频轨道和所述第二视频轨道中的明显对象运动,以得到具有更好的匹配的新的音频同步点和新的视频同步点。10.如权利要求8所述的重构360度音频/视频文件的方法,其特征在于,如果所述音频同步点和所述视频同步点相匹配,所述方法还包括基于所述音频同步点和所述视频同步点评估音频/视频匹配误差,基于可以达到较小的音频/视频匹配误差的一个选择,选择所述音频同步点或所述视频同步点以用于音频/视频对齐。11.如权利要求10所述的重构360度音频/视频文件的方法,其特征在于,如果所述音频同步点可以达到所述较小的音频/视频匹配错误,则使用所述音...
【专利技术属性】
技术研发人员:李佳盈,施信玮,许肇凌,张胜凯,郑尧文,
申请(专利权)人:联发科技股份有限公司,
类型:发明
国别省市:中国台湾,71
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。