具有情感内容的文字至语音转换制造技术

技术编号:15397081 阅读:33 留言:0更新日期:2017-05-19 11:35
本发明专利技术公开了用于将文字转换为具有情感内容的语音的技术。在一个方面中,使用中性模型针对脚本预测情感中性声轨迹,并且使用情感特有模型独立地预测情感特有声轨迹调整。中性轨迹和情感特有调整被组合来生成具有情感内容的变换语音输出。在另一方面中,通过根据语境和状态变化的情感特有因子来变换用于中性声音的统计参数模型的状态参数。情感依赖调整因子可以使用情感特有判定树或者不同于判定树的用于中性声音模型的其他集群方案来进行集群和存储。

Text to speech conversion with emotional content

Techniques for converting text into speech with emotional content are disclosed. In one aspect, a neutral model is used to predict affective neutral trajectories for scripts, and an emotional specific model is used to independently predict affective specific vocal tract trajectories. Neutral trajectories and emotion specific adjustments are combined to generate transformed speech output with emotional content. On the other hand, the state parameter of a statistical parametric model for neutral sounds is transformed by an emotional uniqueness factor based on context and state changes. The emotion dependency adjustment factor can be clustered and stored using an emotion specific decision tree or other clustering schemes for neutral sound models different from the decision tree.

【技术实现步骤摘要】
【国外来华专利技术】具有情感内容的文字至语音转换
本公开涉及用于具有情感内容的文字至语音转换的技术。
技术介绍
计算机语音合成是在现代计算设备中找到的越来越普遍的人机界面特征。在许多应用中,由合成语音传达的情感表达对于总体的用户体验来说是很重要的。语音的感知情感内容可以通过诸如合成语音的节奏和韵律的因素来影响。文字至语音转换技术通常仅通过生成给定脚本的情感“中性”再现而忽视整个合成语音的情感内容。可替换地,文字至语音转换技术可以利用独立的声音模型来用于独立的情感类型,导致与在对应于许多情感类型的存储器中存储独立的声音模型相关联的相对较高的成本。在用于生成具有还不存在声音模型的情感内容的语音时,这些技术还是不灵活的。因此,期望提供一种新颖且有效的技术来用于具有情感内容的文字至语音转换。
技术实现思路

技术实现思路
部分用于以简化的形式引入概念的选择,这将在下文的具体实施方式部分进一步进行描述。本
技术实现思路
部分不用于确定所要求主题的关键特征或重要特征,也不用于限制所要求主题的范围。简而言之,本文所述主题的各个方面在于用于生成具有情感内容的语音输出的技术。在一个方面中,使用情感中性模型来准备脚本的“中性”表示。基于用于语音输出的期望情感类型,针对脚本独立地准备情感特有(emotion-specific)调整,并且情感特有调整被应用于中性表示以生成变换表示。在一个方面中,情感特有调整可基于每个音素(phoneme)、基于每个状态或者基于每个帧来应用,并且可以通过独立的情感特有判定树或其他分群方案来进行存储和分类(或分群)。用于每个情感类型的分群方案可以相互不同并且与用于中性模型参数的分群方案不同。其他优势可以根据以下详细描述和附图而变得显而易见。附图说明图1示出了采用智能手机的场景,其中可应用本公开的技术。图2示出了可由用于实施语音对话系统的设备的处理器和其他元件执行的处理的示例性实施例。图3示出了用于生成具有预定情感类型的语音输出的文字至语音(TTS)转换技术的示例性实施例。图4示出了图3中的块的示例性实施例,其中,使用情感特有调整来修改中性声轨迹。图5示出了图3中的块的示例性实施例,其中,使用情感特有调整来改编HMM状态模型参数。图6示出了根据本公开的判定树集群(decisiontreeclustering)的示例性实施例。图7示出了用于存储可在文字至语音系统中指定的多个情感类型中的每一个的独立判定树的方案的示例性实施例。图8A和图8B示出了根据本公开的得到情感特有调整因子的技术的示例性实施例。图9示出了根据本公开的方法的示例性实施例。图10示意性示出了可执行一个或多个上述方法和处理的非限制性计算系统。图11示出了根据本公开的用于文字至语音转换的装置的示例性实施例。具体实施方式本文所述技术的各个方面总的来说目的在于用于生成具有给定情感类型的语音输出的技术。以下结合附图给出的详细描述用作本专利技术的示例性方面的描述而不用于仅表示可以实践本专利技术的示例性方面。本说明书中使用的术语“示例性”表示“用作实例、示例或例证”,并且不是必须解释为相对于其他示例性方面是优选或有利的。详细描述包括具体的细节,用于提供本专利技术的示例性方面的完整理解。本领域技术人员将明白,在不具有这些具体细节的情况下也可以实践本专利技术的示例性方面。在一些情况下,以框图形式示出已知的结构和设备,以避免模糊本文表示的示例性方面的新颖性。图1示出了采用智能手机的场景,其中可应用本公开的技术。注意,仅为了说明的目的示出图1,并且不用于将本公开的范围限制于仅将本公开应用于智能手机。例如,本文描述的技术可以容易地应用于其他场景,例如笔记本或桌上型计算机的人机界面系统、汽车导航系统等。这些可替换的应用预期包括在本公开的范围内。在图1中,用户110与计算设备120(例如,手持电话)通信。用户110可以向设备120上的麦克风124提供语音输入122。设备120内的一个或多个处理器125可以处理由麦克风124接收的语音信号,例如执行下文进一步参照图2描述的功能。应注意,用于执行这些功能的处理器125不需要具有任何特定的形式、形状或功能划分。基于处理器125执行的处理,设备120可以使用音频扬声器128响应于语音输入122生成语音输出126。注意,在替换处理场景中,设备120还可以生成与语音输入122无关的语音输出126,例如设备120可以独立地以语音输出126的形式从其他用户(未示出)向用户110提供警告或中继消息。图2示出了可由用于实施语音对话系统200的设备120的处理器125或其他元件执行的处理的示例性实施例。应注意,仅为了说明的目的示出处理200,并且不表示将本公开的范围限于图2所示的任何具体序列或操作的集合。例如,在替换示例性实施例中,可以与图2所示处理200独立地应用用于执行具有给定情感类型的文字至语音转换的特定技术。例如,可以在指定脚本和情感类型的任何场景中应用本文公开的技术。此外,根据系统中的具体功能划分,可以组合或省略图2所示的一个或多个块,因此图2不表示建议所示块的任何功能依赖性或独立性。在替换示例性实施例中,块的序列可以不同于图2所示。这种替换示例性实施例被预期包括在本公开的范围内。在图2中,对语音输入122执行语音识别210。语音输入122例如可以从设备120上的麦克风124得到,并且例如可以对应于从麦克风124接收的音频波形。语音识别210生成语音输入122中的口头语言的文字再现。用于语音识别的技术可以利用例如具有从文字数据库训练的统计参数的隐马尔科夫模块(HMM)。对语音识别210的输出执行语言理解220。在示例性实施例中,可以执行诸如语法分析和文法分析的功能以根据自然语言理解技术得到语音的预期含义。情感响应判定230生成由语言理解220确定的用户语音输入的适当情感响应。例如,如果通过对话系统200确定用户的语音输入要求“快乐”情感响应,则输出情感判定230可以指定对应于“快乐”的情感类型230a。输出脚本生成240响应于由语言理解220确定的用户语音输入220a并且还基于由情感响应判定230确定的情感类型230a生成适当的输出脚本240a。输出脚本生成240以自然语言格式呈现生成的响应脚本240a,例如顺从词汇和语法规则,用于用户的快速理解。脚本生成240的输出脚本240a例如可以为目标语言的句子的形式,以自然语言格式将适当响应传输给用户。文字至语音(TTS)转换250合成具有由输出脚本240a确定的本文内容和由情感类型230a确定的情感内容的语音输出126。文字至语音转换250的语音输出126可以是音频波形,并且可以经由编码解码器(图2中未示出)、设备120的扬声器128和/或其他元件提供给收听者(例如,图1中的用户110)。如上所述,期望在特定应用中语音输出126不仅被生成为文字的情感中性再现,而且语音输出126进一步将特定的情况内容传输给用户110。用于生成具有情感内容的人工语音的技术依赖于传输具有预定情感类型的语音的扬声器的文字记录,或者另外要求针对每个情感类型训练完整的语音模型,导致用于模型的禁止存储要求并且还导致情感输出表达的受限范围。因此,期望提供有效率和起作用的技术来用于具有情感内容的文字至语音转换。图3示出了具有情感内容的文字至语音(TTS本文档来自技高网...
具有情感内容的文字至语音转换

【技术保护点】
一种用于文字至语音转换的装置,包括:中性生成块,被配置为生成脚本的情感中性表示,所述情感中性表示包括与多个音素中的每个音素相关联的至少一个参数;以及调整块,被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成变换表示。

【技术特征摘要】
【国外来华专利技术】2014.09.11 US 14/483,1531.一种用于文字至语音转换的装置,包括:中性生成块,被配置为生成脚本的情感中性表示,所述情感中性表示包括与多个音素中的每个音素相关联的至少一个参数;以及调整块,被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成变换表示。2.根据权利要求1所述的装置,还包括:声码器,被配置为根据所述变换表示合成语音波形。3.根据权利要求1所述的装置,每个音素包括多个帧,所述至少一个参数包括与每个音素的每帧相关联的频谱系数,所述调整块被配置为基于所述情感类型和每个音素的语言语境识别通过添加调整因子来调整所述频谱系数。4.根据权利要求1所述的装置,还包括:存储器,存储中性判定树和不同于所述中性判定树的情感特有判定树,所述中性生成块进一步被配置为从所述中性判定树中检索所述至少一个参数,并且所述调整块被配置为从所述情感特有判定树中检索用于调整所述至少一个参数中的每个参数的情感特有调整因子。5.根据权利要求4所述的装置,所述至少一个参数包括与每个音素相关联的隐马尔科夫模型(HMM)的每个状态的参数,所述中性生成块进一步被配置为从所述中性判定树中检索所述HMM的每个状态的参数,并且所述调整块被配置为从所述情感特有判定树中检索对应于所述HMM的每个状态...

【专利技术属性】
技术研发人员:栾剑何磊M·梁
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1