用于控制音频的系统和方法技术方案

技术编号:38341376 阅读:13 留言:0更新日期:2023-08-02 09:21
一种系统,包括:事件检测单元,其被配置为检测与视频游戏环境相关联的重要事件,并且选择性地输出检测到的事件的指示;和分离单元,其被配置为根据来自事件检测单元的指示对回放的音乐执行源分离,和音频输出单元,被配置为输出从由分离单元进行的源分离的结果得到的音频以用于回放。的音频以用于回放。的音频以用于回放。

【技术实现步骤摘要】
用于控制音频的系统和方法


[0001]以下公开涉及用于处理视听娱乐内的音频的系统和方法,具体涉及用于处理视频游戏环境内的音频的系统和方法。还描述了实现这些方法的计算机程序、系统和设备。

技术介绍

[0002]诸如电影和视频游戏的视听娱乐组合了大量的音频、视觉和/或感官内容以向用户递送多媒体体验。每个感觉介质利用大组组成资产来生成并提供期望的用户体验。例如,视频游戏环境伴随有各种音频轨,诸如背景音乐、角色对话和各种各样的音响(sound)效果。在一些情况下,由通过网络连接并通过可听语音聊天(voice chat)通信的多个用户也玩视频游戏。
[0003]虽然每个音频轨被实现的目的是增强沉浸感和集成设计为协调地结合在一起以创建总体用户体验,但是在一些特定情况下,在一些或所有音频元素之间可能存在干扰。例如,在视频游戏环境伴随有具有声轨的音乐的情况下,游戏中的或与游戏相关联的对话可能被声轨中的单词模糊。此类同时(或接近同时)的语音(speech)可能对用户造成听觉混乱,从而可能错过一个或多个音乐或对话,甚至可能导致用户感到诸如恶心的不良影响。
[0004]当在游戏环境或其他视听媒体中存在对话时,有可能降低混合中的音乐或其他音频元素的音量,这是一种被称为闪避(ducking)的技术。这是相对强力的解决方案,并且可能导致音乐轨的音量不断变化,这有损于沉浸感和总体用户体验,并且还可能导致用户厌烦的效果。
[0005]因此,希望提供一种视听体验,其保持完整的视听体验,同时提供重要语音和其他音频元素被用户识别和理解的能力。

技术实现思路

[0006]根据第一方面,本公开提供了一种系统,包括:事件检测单元,其被配置为检测与视频游戏环境相关联的重要事件,并且选择性地输出检测到的事件的指示;和分离单元,其被配置为根据来自事件检测单元的指示对回放的音乐执行源分离,和音频输出单元,其被配置为输出由分离单元进行的源分离的结果导出的音频以用于回放。
[0007]通过检测重大事件并对音频体验的某些元素执行源分离,可以动态地适配预先产生的音频以更好地伴随视频游戏环境中的或与视频游戏环境相关联的其他音频元素。这样,在无缝地移除可能与游戏中的或与游戏相关联的其他音频元素冲突的音乐的某些元素的同时,仍然可以保留回放的音乐的关键特征。此外,由于系统被配置为动态地检测和实时调整某些音频元素,因此可以为任何预先制作的音乐提供定制的解决方案,并且不需要针对每个场景具体地调整音乐。
[0008]视频游戏环境中的重要事件可以是任意数量的事件之一,或者与任意数量的事件之一相关联。例如,诸如配音、旁白和其他第二音乐中的音轨的对话,或者来自与游戏相关联的语音聊天的对话,可以被认为是重要事件。因此,事件检测单元可以被配置为将与视频
游戏环境相关联的对话检测为重要事件。如本文所公开的,音乐和其他音频轨可以在回放中模糊对话,并且对用户造成混淆(和其他不期望的效果)。通过检测游戏环境中的或与游戏环境相关联的对话的存在,并通过源分离来改变诸如回放的音乐之类的某些其他音频元素,可以动态地调整音频体验以提供预期的用户体验,同时提高语音的可理解性。
[0009]在重要事件包括对话的情况下,与视频游戏环境相关联的对话可以包括在视频游戏环境内具有源的对话。例如,事件可以与来自游戏中角色的语音或旁白相关联。事件也可以与来自用户或其他用户的预先记录的语音相关联。在一些示例中,与视频游戏相关联的对话可以包括来自与视频游戏环境相关或相关联的语音聊天的音频。来自语音聊天的语音可以被理解为表示由用户产生的音频

例如用户话语,而不是与音频事件相关联的仅由计算机生成的音频。此类语音通常具有来自连接到计算机或游戏系统的麦克风的源,麦克风被配置为接收用户的声音并通常通过网络发送语音音频。
[0010]当角色对话和音乐的声乐采用不同的语言时,可以减少用户混淆的机会。该系统还可以包括语言检测模块,其被配置为检测由检测单元检测到的任何语音的语言。语言检测模块还可以被配置为检测回放的任何音乐的语言,或者任何分离的声轨的语言。在此类情况下,分离单元可以被配置为还根据由语言检测模块检测到的一种或多种语言来执行源分离。例如,在语言检测模块检测第一语言的角色对话的情况下,如果音乐与第一语言的语言相同,则可以仅对回放的音乐执行源分离(例如,声轨的音量减小)。如果回放的音乐是与第一语言不同的第二语言,则可以不执行源分离,或者仍然可以执行源分离,但是应用于声轨的效果可以不同于对话和音乐是相同语言的情况。此类语言信息可以被包括,作为源自检测单元的指示的一部分。
[0011]可选地,不是通过检测语言,而是例如经由元数据来指示任何音乐歌词的语言。同时,任何潜在的冲突的游戏中对话的语言可以类似地由元数据或由用户的选择(在多种对话语言是可用的情况下)来指示。同时,在相关的情况下,用户自己的口语可以从先前为系统用户界面选择的语言设置以第一近似值来推断,该语言设置可能指示用户的第一语言。对于来自其他用户的传入语音,他们的类似推断的相应语言可以作为元数据与他们的语音一起被传输至少一次。因此,语言检测模块可以可选地使用此类元数据和情境指示符作为语言检测到的替代或补充。
[0012]由事件检测单元输出的指示可以包括与检测到的重要事件相关联的音频特性。例如,该指示可以包括携带与检测到的重要事件相关联的音频特性有关的数据的信号。在检测到的重要事件是与游戏相关联的对话的示例中,音频特性可以例如包括对话音频的音调、持续时间和音量中的一个或多个,以及关于对话源自的角色的信息,和关于游戏中环境中的事件和状态的信息。分离单元可以被配置为根据音频特性执行源分离。也就是说,执行源分离的方式可能受到检测到的事件的特定特性(例如,检测到的对话音频的特性)的影响。例如,当利用低频语音信号检测到低音对话时,可以执行音乐上的源分离,使得低频音轨被分离和滤波(例如,去除或降低音量),而高频音轨被保持在其中并保持不变。可替代地,音乐的低频层可以被分离和改变,以便对用户产生较少的对低频对话的混淆。
[0013]该指示可以表征检测到的事件的持续时间,使得源分离可以仅在事件持续时发生,或者以具有引入和引出时段的重叠“楔形”间隔发生(例如,如果事件具有5秒的持续时间,则音乐可以改变7秒,在持续时间之前1秒和之后1秒)。因此,该指示可以是在事件开始
时或事件之前发送的每个事件的一次性传输。可替代地,该指示可以是指示事件的持续发生(或未发生)的连续信号,例如,只要游戏中的角色正在说话,该信号就存在,并且一旦角色停止说话,该信号就消失。
[0014]分离单元可以被配置为执行源分离以从回放的音乐中分离一个或多个声轨。分离单元还可以被配置为根据来自事件检测单元的指示来减小一个或多个声轨的音量。该分离单元还可以被配置为根据来自该事件检测单元的指示来修改一个或多个分离的声轨的音频特性。在其他示例中,分离单元可以被配置为执行源分离以从回放音乐中分离一个或多个其他轨(非声轨)。
[0015]音频输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种系统,包括:事件检测单元,被配置为检测与视频游戏环境相关联的重要事件,并且选择性地输出检测到的事件的指示;以及分离单元,被配置为根据来自所述事件检测单元的指示对回放的音乐执行源分离,以及音频输出单元,被配置为输出从由所述分离单元进行的源分离的结果得到的音频以用于回放。2.根据权利要求1所述的系统,其中所述事件检测单元被配置为将与所述视频游戏环境相关联的对话检测为重要事件。3.根据权利要求2所述的系统,其中与所述视频游戏环境相关联的所述对话包括在所述视频游戏环境内具有源的对话。4.根据权利要求2和3中任一项所述的系统,其中与所述视频游戏相关联的所述对话包括来自与所述视频游戏环境有关的语音聊天的音频。5.根据权利要求1所述的系统,其中由所述事件检测单元输出的所述指示包括与所述检测到的重要事件相关联的音频特性,并且其中所述分离单元被配置为根据所述音频特性来执行所述源分离。6.根据权利要求1所述的系统,其中所述分离单元被配置为执行源分离以从所述回放的音乐中分离一个或多个声轨,并且根据来自所述事件检测单元的所述指示来改变所述一个或多个声轨的一个或多个音频特性。7.根据权利要求6所述的系统,其中所述分离单元被配置为根据来自所述事件检测单元的所述指示来减小所述一个或多个分离的声轨的音量。8.根据权利要求1所述...

【专利技术属性】
技术研发人员:J
申请(专利权)人:索尼互动娱乐欧洲有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1