Techniques for converting text into speech with emotional content are disclosed. In one aspect, a neutral model is used to predict affective neutral trajectories for scripts, and an emotional specific model is used to independently predict affective specific vocal tract trajectories. Neutral trajectories and emotion specific adjustments are combined to generate transformed speech output with emotional content. On the other hand, the state parameter of a statistical parametric model for neutral sounds is transformed by an emotional uniqueness factor based on context and state changes. The emotion dependency adjustment factor can be clustered and stored using an emotion specific decision tree or other clustering schemes for neutral sound models different from the decision tree.
【技术实现步骤摘要】
【国外来华专利技术】具有情感内容的文字至语音转换
本公开涉及用于具有情感内容的文字至语音转换的技术。
技术介绍
计算机语音合成是在现代计算设备中找到的越来越普遍的人机界面特征。在许多应用中,由合成语音传达的情感表达对于总体的用户体验来说是很重要的。语音的感知情感内容可以通过诸如合成语音的节奏和韵律的因素来影响。文字至语音转换技术通常仅通过生成给定脚本的情感“中性”再现而忽视整个合成语音的情感内容。可替换地,文字至语音转换技术可以利用独立的声音模型来用于独立的情感类型,导致与在对应于许多情感类型的存储器中存储独立的声音模型相关联的相对较高的成本。在用于生成具有还不存在声音模型的情感内容的语音时,这些技术还是不灵活的。因此,期望提供一种新颖且有效的技术来用于具有情感内容的文字至语音转换。
技术实现思路
本
技术实现思路
部分用于以简化的形式引入概念的选择,这将在下文的具体实施方式部分进一步进行描述。本
技术实现思路
部分不用于确定所要求主题的关键特征或重要特征,也不用于限制所要求主题的范围。简而言之,本文所述主题的各个方面在于用于生成具有情感内容的语音输出的技术。在一个方面中,使用情感中性模型来准备脚本的“中性”表示。基于用于语音输出的期望情感类型,针对脚本独立地准备情感特有(emotion-specific)调整,并且情感特有调整被应用于中性表示以生成变换表示。在一个方面中,情感特有调整可基于每个音素(phoneme)、基于每个状态或者基于每个帧来应用,并且可以通过独立的情感特有判定树或其他分群方案来进行存储和分类(或分群)。用于每个情感类型的分群方案可以相互不同并且与用于中性模型参数的分 ...
【技术保护点】
一种用于文字至语音转换的装置,包括:中性生成块,被配置为生成脚本的情感中性表示,所述情感中性表示包括与多个音素中的每个音素相关联的至少一个参数;以及调整块,被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成变换表示。
【技术特征摘要】
【国外来华专利技术】2014.09.11 US 14/483,1531.一种用于文字至语音转换的装置,包括:中性生成块,被配置为生成脚本的情感中性表示,所述情感中性表示包括与多个音素中的每个音素相关联的至少一个参数;以及调整块,被配置为基于情感类型针对所述多个音素中的每个音素区别地调整所述至少一个参数,以生成变换表示。2.根据权利要求1所述的装置,还包括:声码器,被配置为根据所述变换表示合成语音波形。3.根据权利要求1所述的装置,每个音素包括多个帧,所述至少一个参数包括与每个音素的每帧相关联的频谱系数,所述调整块被配置为基于所述情感类型和每个音素的语言语境识别通过添加调整因子来调整所述频谱系数。4.根据权利要求1所述的装置,还包括:存储器,存储中性判定树和不同于所述中性判定树的情感特有判定树,所述中性生成块进一步被配置为从所述中性判定树中检索所述至少一个参数,并且所述调整块被配置为从所述情感特有判定树中检索用于调整所述至少一个参数中的每个参数的情感特有调整因子。5.根据权利要求4所述的装置,所述至少一个参数包括与每个音素相关联的隐马尔科夫模型(HMM)的每个状态的参数,所述中性生成块进一步被配置为从所述中性判定树中检索所述HMM的每个状态的参数,并且所述调整块被配置为从所述情感特有判定树中检索对应于所述HMM的每个状态...
【专利技术属性】
技术研发人员:栾剑,何磊,M·梁,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。