用于创建基于对象的音频内容的方法和系统技术方案

技术编号:27262069 阅读:29 留言:0更新日期:2021-02-06 11:22
本文描述了一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法,该方法包括以下步骤:a)接收文本输入;b)对接收到的文本输入执行语义分析;c)基于语义分析的一个或多个结果合成语音和效果以生成一个或多个音频对象;d)生成针对一个或多个音频对象的元数据;以及e)创建包括一个或多个音频对象和元数据的基于对象的音频内容。本文进一步描述了:一种基于计算机的系统,该基于计算机的系统包括一个或多个处理器,该一个或多个处理器被配置为执行所述方法;以及一种计算机程序产品,该计算机程序产品包括具有指令的计算机可读存储介质,该指令被适配成当由具有处理能力的设备执行时执行所述方法。所述方法。所述方法。

【技术实现步骤摘要】
【国外来华专利技术】用于创建基于对象的音频内容的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求于2018年7月19日提交的西班牙专利申请号P201830728、于2018年9月27日提交的美国临时专利申请号62/737,330以及于2018年10月19日提交的欧洲专利申请号18201444.9的优先权的权益,所述专利申请通过引用以其全文并入本文。


[0003]本公开总体涉及一种基于文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法,并且更具体地涉及基于对文本输入的更深入的语义分析来创建基于对象的音频内容。
[0004]尽管本文将特别参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景下。

技术介绍

[0005]在整个公开内容中对
技术介绍
的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
[0006]如今,有声读物和音频播放提供超越仅书面单词的文学体验。进行文本到语音的转换以在有声读物和音频播放中回放是公认的,并且经历持续发展。使合成的语音听起来更自然并且更具情感仅是要实现的一个目标。
[0007]US 2017/0169811 A1公开了例如一种用于对诸如文学作品的文本作品执行文本到语音(TTS)处理的系统和方法。这些作品的文本被处理,并且确定与章节、段落、句子、单词、对话部分以及其他上下文的部分中的一个或多个相对应的偏移。使用这些偏移进一步确定一次使用TTS处理要处理作品的哪个部分以及作品中的多少内容,以产生高质量的音频输出。然后,可以将该音频输出发送到用户设备并在所述设备上播放。
[0008]US 2016/0093289 A1公开了例如用于执行多风格语音合成的技术。这些技术包括:获得包括文本的输入以及对在将文本渲染为语音时使用的第一说话风格的识别。进一步识别在将文本渲染为语音时使用的多个语音段,所识别出的多个语音段包括具有第一说话风格的第一语音段和具有不同于第一说话风格的第二说话风格的第二语音段。然后,通过使用所识别出的多个语音段,至少部分地将文本渲染为具有第一说话风格的语音。
[0009]除了使合成的语音听起来更自然并且更具情感之外,还已经尝试了创建对情感的甚至更深入的体验,以改善用户的收听体验。
[0010]EP 3 276 623 A1公开了例如一种自动生成旨在与相关联的文本的读取同步回放的数字声带的方法。该方法包括在段水平上对文本进行句法和/或语义分析,以在连续情感模型的上下文中为每个文本段生成情感简档。然后,为被选择进行回放的文本区域生成相应的声带。
[0011]传统地,音频内容是以基于通道的格式创建和存储的。如本文所使用的,术语“音频通道”或“通道”是指通常具有预定义的物理位置的音频内容。例如,立体声、5.1环绕声、
7.1环绕声等都是针对音频内容的基于通道的格式。近来,随着多媒体行业的发展,尤其是在电影院和家庭中三维(3D)音频内容越来越受欢迎。
[0012]如本文所使用的,术语“音频对象”是指在声场中存在限定持续时间的单个音频元素。音频对象可以是动态的或静态的。可选地,音频对象可以具有相关联的元数据,例如描述对象的位置、速度和大小的空间信息。已经开发了基于对象的音频内容以提供改善的3D收听体验。声音设计师和艺术家在3D空间中自由混合音频,从而通过环绕通道来操纵效果并利用高度通道来增加无缝头顶维度。
[0013]尽管已经广泛地应用于家庭影院和电影院的领域中,但是将期望的是,也为收听有声读物和/或音频播放的用户提供基于对象的音频内容的益处。因此,目标是提供一种用于在用户收听有声读物或音频播放时为用户提供沉浸式收听体验的方法、系统和计算机程序产品。

技术实现思路

[0014]根据本公开的第一方面,提供了一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法。该方法可以包括以下步骤:a)接收文本输入。该方法可以进一步包括以下步骤:b)对接收到的文本输入执行语义分析。该方法可以进一步包括以下步骤:c)基于语义分析的一个或多个结果合成语音和效果以生成一个或多个音频对象。该方法可以进一步包括以下步骤:d)生成针对一个或多个音频对象的元数据。并且,该方法可以进一步包括以下步骤:e)创建包括一个或多个音频对象和元数据的基于对象的音频内容。
[0015]在一个实施例中,该方法可以进一步包括以下步骤:bi)识别语音和效果的一个或多个起源,作为语义分析的一个或多个结果。通过识别语音和效果的一个或多个起源,可以关于语音和效果的一个或多个起源生成一个或多个音频对象。
[0016]在一个实施例中,该方法可以进一步包括以下步骤:bii)确定语音信息和效果信息,作为语义分析的一个或多个结果。语音信息和效果信息可用于引导对语音和效果的合成。如果识别出语音和效果的一个或多个起源,则可以关于语音和效果的一个或多个起源确定语音信息和效果信息。
[0017]在一个实施例中,该方法可以进一步包括以下步骤:biii)确定空间信息,作为语义分析的一个或多个结果。通过确定空间信息,可以基于空间信息生成元数据。如果识别出语音和效果的一个或多个起源,则可以关于语音和效果的一个或多个起源确定空间信息。
[0018]例如,在一个实施例中,用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法可以包括接收文本输入的步骤。该方法可以进一步包括对接收到的文本输入执行语义分析的步骤。该方法可以进一步包括基于语义分析识别语音和效果的一个或多个起源的步骤。该方法可以进一步包括基于语义分析确定语音信息和效果信息的步骤。该方法可以进一步包括基于语义分析确定一个或多个起源的空间信息的步骤。该方法可以进一步包括基于语音信息和效果信息合成语音和效果,以生成与语音和效果的一个或多个起源相关的一个或多个音频对象的步骤。该方法可以进一步包括基于空间信息生成针对一个或多个音频对象的元数据的步骤。该方法还可以进一步包括创建包括一个或多个音频对象和元数据的基于对象的音频内容的步骤。
[0019]在一个实施例中,该方法可以进一步包括以下步骤:ai)使接收到的文本输入标准化。通过执行标准化,可以例如通过将数字、缩写和/或符号转换为它们的书面单词的等效物来将接收到的文本输入转换为标准文本。相应地,在步骤b)中可以更高效地分析标准文本。
[0020]在一个实施例中,该方法可以进一步包括以下步骤:aii)对接收到的文本输入执行句法分析。通过执行句法分析,可以获得接收到的文本输入的结构。相应地,对文本结构的了解可以允许对接收到的文本输入进行更高效的分割,从而进行更高效的语义分析。
[0021]在一个实施例中,语义分析可以包括对接收到的文本输入进行分割。通过应用分割,可以将接收到的文本输入分成期望大小的段,例如单词、句子或段落。相应地,在语义分析中,可以单独分析每个段,也允许通过分析一个或多个相邻段来确定上下文。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于根据文本输入创建在有声读物和/或音频播放中使用的基于对象的音频内容的方法,所述方法包括以下步骤:a)接收所述文本输入;b)对接收到的文本输入执行语义分析;bi)确定空间信息,作为所述语义分析的一个或多个结果;c)基于所述语义分析的所述一个或多个结果合成语音和效果以生成一个或多个音频对象;d)生成针对所述一个或多个音频对象的元数据;以及e)创建包括所述一个或多个音频对象和所述元数据的所述基于对象的音频内容。2.根据权利要求1所述的方法,其中,所述方法进一步包括以下步骤:bii)识别语音和效果的一个或多个起源,作为所述语义分析的所述一个或多个结果。3.根据权利要求2所述的方法,其中,所述语音和效果的起源包括演员、旁白员、物品和环境中的一个或多个。4.根据权利要求2至3中任一项所述的方法,其中,针对所述语音和效果的一个或多个起源确定所述空间信息。5.根据权利要求1至4中任一项所述的方法,其中,所述空间信息包括关于行进的方向、速度、大小、形状、位置、连贯性或加速度中的一个或多个的信息。6.根据权利要求1至5中任一项所述的方法,其中,所述方法进一步包括以下步骤:aii)对接收到的文本...

【专利技术属性】
技术研发人员:T
申请(专利权)人:杜比实验室特许公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1