现场音乐表演的多媒体内容的基于网络的处理及分布制造技术

技术编号:20596505 阅读:22 留言:0更新日期:2019-03-16 12:07
本发明专利技术揭示用于现场表演的多媒体内容的基于网络的处理及分布的方法、系统及计算机程序产品。在一些实施方案中,录制装置可经配置以录制多媒体事件(例如,音乐表演)。所述录制装置可在所述事件正在进行时将所述录制提供到服务器。所述服务器对所述录制进行自动同步、混音及母带处理。所述服务器使用先前在排练期间所捕获的参考音频数据执行所述自动混音及母带处理。所述服务器通过因特网或者其它公用或专用网络将所述经母带处理的录制流式传输到多个终端用户。所述流式传输可为现场流式传输。

Network-based Processing and Distribution of Multimedia Content in Live Music Performance

The invention discloses a method, system and computer program product of network-based processing and distribution of multimedia content for live performance. In some implementations, recording devices may be configured to record multimedia events (e.g., music performances). The recording device may provide the recording to the server while the event is in progress. The server automatically synchronizes, mixes and processes the recording. The server performs the automatic mixing and master band processing using the reference audio data captured previously during rehearsal. The server transmits the master-band-processed recording stream to a plurality of end users via the Internet or other public or private networks. The streaming transmission can be field streaming transmission.

【技术实现步骤摘要】
【国外来华专利技术】现场音乐表演的多媒体内容的基于网络的处理及分布
本专利技术一般来说涉及现场音乐表演的多媒体内容的捕获、处理及分布。
技术介绍
经由因特网分布现场表演的高质量音频及视频可为具挑战性的。上传到因特网的许多业余制作的视频录制具有不良视频及声音质量。当乐队在未经声学处理的场地中演奏时,如果在不进行进一步处理的情况下直接上传录制,那么声音质量可为不良的。举例来说,如果使用架子鼓,那么可大声地演奏所述架子鼓,使得无法清晰地听到乐队的其它乐器。另外,如果乐队未恰当地设置其录制设备(例如,包含多个麦克风、前置放大器及混音控制台),那么表演的录制可具有低声音质量。即使恰当地设置录制设备,乐队也可能缺乏高效地使用录制设备的技术专长。同样地,表演的专业质量视频录制及编辑可需要超出表演者的技能的技术专长。
技术实现思路
本专利技术揭示用于基于排练及现场数据而进行视频编辑的系统、程序产品及方法。系统从一或多个麦克风及一或多个视频摄像机接收关于表演的排练的排练数据。所述系统基于所述排练数据而匹配声音与表演者。在现场表演期间,所述系统接收所述表演的现场音频与视频数据。基于所述排练数据的分析,所述系统导出表演者相对于排练所演奏的等级,以及在所述一或多个视频摄像机中所述表演者在排练期间的代表性位置。所述系统接着基于利用所述所导出等级及位置来(举例来说)强调突显表演者的规则而编辑所述视频数据;所述系统任选地使用其表演的分析来改进所述编辑,所述分析产生(举例来说)节奏或节拍数据及表演者移动追踪数据。所述系统接着使所述音频数据与所述经编辑视频数据相关联以用于存储且流式传输到一或多个用户装置。本专利技术揭示用于在有限网络带宽下进行视频处置的系统、程序产品及方法。视频摄像机可捕获表演的高清晰度视频(例如,4K视频)。所述视频可难以经由通信网络进行现场流式传输(或甚至离线上传)。所述视频摄像机可将所述视频的一或多个帧(任选地处于较低分辨率中且任选地使用有损视频编解码器经压缩)提交给服务器系统。基于所述一或多个帧及音频数据,如在先前段落中所描述,所述服务器系统可产生对视频数据的编辑决策。所述服务器系统可指导所述视频摄像机裁剪与表演者或表演者群组对应的所述高清晰度视频的一部分,且将所述视频的那部分作为中等或低清晰度视频(例如,720p视频)(任选地使用有损视频编解码器经压缩)提交给所述服务器系统。视频摄像机装置可连续地存储与最后所捕获帧对应的高清晰度视频(例如4K)的长缓冲区(例如数十秒),使得可对几秒前捕获的帧实施来自所述服务器系统的所接收指令。所述服务器系统接着可存储所述中等或低清晰度视频或将所述中等或低清晰度视频流式传输到用户装置。揭示用于现场表演的多媒体内容的基于网络的处理及分布的实施方案。在一些实施方案中,录制装置可经配置以录制事件(例如,现场音乐表演)。所述录制装置在所述表演期间将录制提供到服务器。所述服务器对所述录制进行自动同步、混音及母带处理。在实施方案中,所述服务器使用在排练期间捕获的参考音频数据执行所述自动化混音及母带处理,在所述排练中,所述录制装置及声音源放置于与在所述事件中相同的声学(且在视频录制装置的情形中,可视)布置中。所述服务器(例如)通过现场流式传输将所述经母带处理的录制提供到多个终端用户装置。在一些实施方案中,所述服务器将现场事件的视频信号流式传输到多个用户。使用在排练阶段期间录制的所述参考音频数据(还称为排练数据),所述服务器确定各种乐器及歌手(下文还称为“声音源”)的位置以及录制位置处的表演者的位置。在现场表演期间,所述服务器基于一或多个参数(例如,音量)而确定一或多个主导声音源。图像捕获装置(例如,视频摄像机)可捕获所述表演的现场视频且将其发送到所述服务器。使用所述主导声音源的位置,所述服务器确定视频中的一部分来施加视频编辑操作(例如,缩放、转变、可视效应)。可实时发生对现场视频或对先前所录制的视频数据施加所述视频编辑操作。所述服务器将与主导声音源对应的视频的部分(例如,主唱歌手或首席吉他演奏者的近镜头)流式传输到终端用户装置。在实施方案中,音频与视频流式传输可为互动的。举例来说,所述服务器可在终端用户装置上提供允许终端用户控制音频混音(例如,提高歌手或独奏乐器的音量)及视频编辑(例如,对特定表演者进行放大)的视频覆盖或图形用户接口。在一些实施方案中,所述服务器可将调整一或多个录制参数(例如,对麦克风前置放大器的录制等级调整、视频录制器的缩放等级、接通或关断特定麦克风或视频录制器或以上各项的任何组合)的命令发布到音频或视频录制装置。本说明书中所描述的特征可达成优于常规音频与视频技术的一或多个优点。所述特征通过至少部分地基于从参考音频数据获得的参考音频数据而进行音轨的自动化混音及母带处理来对常规手动音频与视频处理技术进行改进。因此,乐队不需要具有音频录制或混音专长来制作其现场表演的良好发声录制。使用本文中所揭示的自动化混音及母带处理,乐队可在不诉诸于使用专业录制、混音及母带处理工程师的情况下产生协调声音。如果乐队期望来自特定专家的混音风格,那么所述乐队可使用本文中所揭示的基于网络的平台来聘用专家对其录制进行远程混音及母带处理。同样地,所揭示实施方案通过至少部分地基于音频与视频排练数据而用自动化摄像机操作替换手动摄像机操作(例如,平移及缩放)来对常规视频处理技术进行改进。视频可自动放大或聚焦于个别表演者或乐器。乐队可在不聘用专业摄像师的情况下制作且编辑其现场表演的专业质量视频。乐队可使用各种技术(例如,现场流式传输)将高质量音频及视频提供到多个终端用户装置。为增强终端用户体验,可使流式传输为互动的,从而允许终端用户控制音频混音及视频编辑的各种方面。在本说明书中,为了方便,术语乐队可指一或多个表演者及乐器的乐队。所述术语还可指非音乐环境中的一或多个参与者(例如,戏剧中的表演者、会议上的扬声器或广播系统中的扬声器)的群组。本文中所揭示的特征及过程通过将服务器计算机配置为执行现场表演的音轨的自动化同步、混音及母带处理以及视频数据的编辑而对常规服务器计算机进行改进。所述服务器计算机可将经处理音频及视频流式传输到终端用户装置且提供允许终端用户对音频及视频进行进一步混音或编辑的控制。在各种实施方案中,所述服务器计算机可存储现场表演的原始数据以用于离线使用、混音、母带处理、重新目的化、分割、策展。所述服务器计算机可存储经处理数据以用于稍后分布。所述服务器计算机可存储已经过各种处理阶段(原始数据与完全经处理数据之间的任何地方,包含性的)的数据。服务器可将数据存储于存储装置(例如,硬盘、光盘(CD)、远程存储网站(例如,基于云的音频与视频服务)或内存条)上。本文中所揭示的特征及过程通过允许服务器计算机基于各种规则自动编辑视频数据来对常规服务器计算机进行改进。实施所揭示技术的所述服务器计算机可引导录制装置(例如,视频摄像机)在表演者(例如,独唱者)以不同于其它表演者的方式(例如,更大声)演唱时或在所述表演者移动时或在所述表演者在无伴奏(例如,清唱)的情况下演唱时自动聚焦于所述表演者。所述服务器计算机可根据音乐的节奏及节拍来剪切且改变场景。所述服务器计算机引导所述录制装置追踪声音源的移动,包含(举例来说)从第一表演者切换到第二表演者,因此本文档来自技高网...

【技术保护点】
1.一种方法,其包括:由服务器系统且从一或多个声道信号源接收参考音频数据,所述参考音频数据包括个别地演奏的一或多个声音源的声学信息;由所述服务器系统且从所述一或多个声道信号源接收表演事件的一或多个声道信号,每一声道信号来自相应声道信号源且包括来自在所述表演事件处演奏的所述一或多个声音源的音频信号;由所述服务器系统对所述一或多个声道信号进行混音,所述混音包括基于所述参考音频数据而自动调整所述表演事件的一或多个声音源的一或多个音频属性;及将所述表演事件的经混音录制从所述服务器系统提供到存储装置或提供到多个终端用户装置。

【技术特征摘要】
【国外来华专利技术】2016.07.22 ES P201631002;2017.03.02 ES P201730282;1.一种方法,其包括:由服务器系统且从一或多个声道信号源接收参考音频数据,所述参考音频数据包括个别地演奏的一或多个声音源的声学信息;由所述服务器系统且从所述一或多个声道信号源接收表演事件的一或多个声道信号,每一声道信号来自相应声道信号源且包括来自在所述表演事件处演奏的所述一或多个声音源的音频信号;由所述服务器系统对所述一或多个声道信号进行混音,所述混音包括基于所述参考音频数据而自动调整所述表演事件的一或多个声音源的一或多个音频属性;及将所述表演事件的经混音录制从所述服务器系统提供到存储装置或提供到多个终端用户装置。2.根据权利要求1所述的方法,其中:每一声道信号源包含具有信号输出的麦克风或声音信号产生器,每一声音源为歌手、乐器或合成器,所述服务器系统包含通过通信网络连接到所述一或多个声道信号源的一或多个计算机,且所述一或多个声道信号源及所述一或多个声音源在所述排练中与在所述表演事件中具有相同声学布置。3.根据权利要求1或权利要求2所述的方法,其中:所述一或多个声道信号包含来自所述一或多个声道信号源中的第一声道信号源的第一声道信号及来自所述一或多个声道信号源中的第二声道信号源的第二声道信号,且所述方法包括由所述服务器系统使所述第一声道信号与所述第二声道信号在时间域中同步。4.根据前述权利要求中任一权利要求所述的方法,其包括:从所述一或多个声道信号分离出第一声音源及第二源,包含从在所述一或多个声道信号中所表示的多个声音源中分离出所述第一声音源及所述第二声音源,其中所述一或多个声道信号包括表示所述第一声音源的第一信号及表示所述第二声音源的第二信号。5.根据前述权利要求中任一权利要求所述的方法,其中所述混音包括由所述服务器系统调平第一声音源及第二声音源且使所述第一声音源及所述第二声音源平移。6.根据权利要求5所述的方法,其中调平所述第一声音源及所述第二声音源包括根据每一声音源的相应能级增加或减少所述一或多个声音源的增益,每一相应能级由所述服务器系统依据所述参考音频数据来确定。7.根据前述权利要求中任一权利要求所述的方法,其中所述参考音频数据包括以下各项中的至少一者:以经指定为低等级的第一等级及经指定为高等级的第二等级来演奏的每一声音源的信号;或以单个等级来演奏的每一声音源的信号。8.根据前述权利要求中任一权利要求所述的方法,其包括依据所述参考音频数据确定所述事件中的每一声音源的相应增益,其中确定所述相应增益包括针对每一声音源:接收规定目标等级的输入;确定所述参考音频数据中的所述信号的相应等级;且基于所述参考音频数据中的所述信号的所述等级与所述目标等级之间的差而确定每一相应增益。9.根据前述权利要求中任一权利要求所述的方法,其中对所述一或多个声道信号进行混音包括根据来自登录到所述服务器系统的混音器装置的输入调整所述一或多个声道信号、来自所述一或多个声音源的所述信号或两者的增益。10.根据前述权利要求中任一权利要求所述的方法,其包括针对所述事件执行视频编辑,其中执行所述视频编辑包括:由所述服务器系统的视频编辑器接收所述事件的视频数据及音频数据,所述视频数据包含其中声音源可见地位于所述事件中的不同位置处的视频,所述音频数据包含声音源的能级;依据所述音频数据确定在所述音频数据中所表示的第一声音源的信号指示所述第一声音源正在以比在所述音频数据中所表示的其它声音源的等级高出阈值量的等级进行演奏;确定所述视频数据中的所述第一声音源的位置;确定所述视频数据的与所述第一声音源的所述位置对应的一部分;及将所述音频数据及所述视频数据的所述部分同步提供到所述存储装置或提供到所述终端用户装置。11.根据权利要求10所述的方法,其中确定所述视频数据中的所述声音源的所述位置包括:基于音频数据而确定所述第一声音源的平移位置;及将所述第一声音源的所述平移位置指定为所述视频数据中的所述声音源的所述位置。12.根据权利要求10所述的方法,其中确定所述视频数据中的所述声音源的所述位置包括使用面部追踪或乐器追踪确定所述声音源的所述位置。13.根据前述权利要求中任一权利要求所述的方法,其包括:基于所述一或多个声道信号而将命令从所述服务器系统提供到所述一或多个声道信号源,所述命令经配置以调整所述一或多个声道信号源的录制参数,所述录制参数包含增益、压缩类型、位深度或数据传输速率中的至少一者。14.一种调平音频的方法,其包括:由包含一或多个电子电路的调平单元接收参考音频数据,所述参考音频数据包含来自多个声道信号源的声道信号的表示;由所述调平单元接收目标等级数据,所述目标等级数据规定每一声音源的目标等级;由所述调平单元基于所述参考音频数据而确定用于根据相应增益将音频信号重新按比例缩放到所述目标等级的成本函数;及通过使所述成本函数最小化而计算将施加到现场音频数据中的所述声道信号中的每一者的相应增益。15.根据权利要求14所述的方法,其中所述声道信号的所述表示包含原始声道信号或经处理声道信号,所述经处理声道信号包含已由噪声降低单元、均衡器、动态范围校正单元或声音源分离器处理的声道信号。16.根据权利要求14所述的方法,其包括由所述调平单元确定所述声道信号源的每一对之间的相应相关性。17.一种使音频平移的方法,其包括:由包括一或多个电子电路的平移器接收声音源的参考音频数据,所述声音源包含经指定为一或多个可平移源的一或多个源及经指定为一或多个不可平移源的一或多个源;接收所述声音源在其中进行演奏的事件的声道信号;基于所述参考音频数据而确定成本函数,所述成本函数具有作为变量的针对每一声道信号的平移位置,所述成本函数包含用于表示左声道与右声道之间的失衡的第一分量、表示所述一或多个可平移源的第二分量及表示所述声音源当中的所述一或多个不可平移源的第三分量;通过使所述成本函数最小化而确定每一声道信号的相应平移位置;及将所述平移位置施加到所述声道信号以实现将所述事件的声音源放置在立体声舞台的左边与右边之间以用于输出到立体声复制系统的音频效应。18.根据权利要求17所述的方法,其中所述平移位置包含平移角度中的至少一者或左声道与右声道之间的比率,且其中所述立体声复制系统包含头戴式耳机或扬声器。19.一种调平音频且使音频平移的方法,其包括:由包含一或多个电子电路的调平与平移单元接收参考音频数据,所述参考音频数据包含在一或多个声音源的排练中录制的来自多个声道信号源的声道信号的表示;由所述调平与平移单元接收目标等级数据,所述目标等级数据规定每一声音源的目标等级;由所述调平与平移单元接收现场音频数据,所述现场音频数据包含来自在现场事件处演奏的所述一或多个声音源的所录制或实时信号;由所述调平单元基于所述参考音频数据而确定用于调平所述现场音频数据且使所述现场音频数据平移的联合成本函数,所述联合成本函数具有用于调平所述现场音频数据的第一分量及用于使所述现场音频数据平移的第二分量,所述第一分量基于所述目标等级数据,所述第二分量基于左声道与右声道之间的失衡的第一表示、所述声音源当中的可平移源的第二表示及所述声音源当中的不可平移源的第三表示;通过使所述联合成本函数最小化来计算将施加到所述声道信号中的每一者的相应增益及每一声道信号的相应平移位置;及将所述增益及平移位置施加到事件的现场音频数据的信号以实现调平所述现场音频数据中的声音源且将所述现场音频数据中的声音源放置在立体声舞台的左边与右边之间以用于输出到存储装置或立体声复制系统的音频效应。20.根据权利要求19所述的方法,其中每一等级为能级或响度等级。21.一种确定音频等级的方法,其包括:由包含一或多个电子电路的估计器接收参考音频数据,所述参考音频数据包含各自表示在排练期间演奏的一或多个声音源的声道信号;由所述估计器基于所述参考音频数据而计算每一麦克风中的每一声音源的相应等级;确定现场音频数据与参考音频数据之间的等级差,包含将如在所述现场音频数据中所表示的每一声音源及如在所述参考音频数据中所表示的所述声音源的相应等级进行比较;基于所述差而确定关于每一声音源的相应等级的成本函数;通过使所述成本函数最小化而确定所述相应等级;及将所述等级作为输入提供到音频或视频处理器。22.根据权利要求21所述的方法,其包括:由所述估计器计算多个频带中的每一频带中的每一声音源的相应等级,其中所述成本函数包含每声音源跨越各频带的成本的相应和;在每一频带中确定所述相应等级。23.一种使音频均衡的方法,其包括:由包括一或多个电子电路的均衡器接收包含来自多个声音源的信号的音频数据;由所述均衡器将针对每一声音源的相应信号映射到每一频带中的激励;确定源-频带对列表中的每一源-频带对的需求值,每一源-频带对表示声音源及频带,所述需求值指示在所述对中所表示的所述声音源在所述对中的所述频带中经均衡相对于其它声音源及其它频带的相对重要性以及一或多个其它声音源对在所述对中所表示的所述声音源的掩蔽等级;迭代地使在所述列表中的具有最高需求值的所述源-频带对中所表示的声音源的信号均衡且从所述列表移除经均衡源-频带对,直到剩余源-频带对的最高需求值低于阈值为止;及提供所述经均衡信号以在一或多个扬声器上播放。24.根据权利要求23所述的方法,其中所述需求值为表示所述相对重要性的一或多个值与表示所述声音源的等级掩蔽的一或多个值的乘积。25.一种分割视频内容的方法,其包括:由包括一或多个电子电路的分割单元接收音频信号;由所述分割单元跨越时间建构关于所述音频信号的新奇索引;基于所述新奇索引中的峰值而确定下一剪切的剪切时间;在所述剪切时间处剪切所述视频内容;及将所述经剪切视频内容作为新视频片段提供到存储装置或提供到一或多个终端用户装置。26.根据权利要求25所述的方法,其中确定所述剪切时间包括:基于平均剪切长度而确定片段长度,所述片段长度与音频片段的长度对应;及基于片...

【专利技术属性】
技术研发人员:P·尼科尔A·马特奥斯·索莱G·真加勒C·M·瓦斯科
申请(专利权)人:杜比实验室特许公司杜比国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1