情感语音合成方法和系统技术方案

技术编号:7243868 阅读:276 留言:0更新日期:2012-04-11 18:40
通过本发明专利技术可以使语音合成的效果更加自然,更贴近真实的阅读声音。本发明专利技术提供一种情感语音合成方法,包括:接收文本数据;对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及按照所述情感标记对所述文本数据进行语音合成。其中本发明专利技术是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本发明专利技术中的情感标记被表示为一组情感矢量,这使得本发明专利技术中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本发明专利技术无需人工干预,也就是说无需人工对每句话指定固定的情感标记。

【技术实现步骤摘要】

本专利技术总体上涉及语音合成的方法和系统,特别的本专利技术涉及情感语音合成方法和系统
技术介绍
语音合成TTS是指根据韵律建模的结果,从原始语音库中取出相应的语音基元, 利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。目前几种主要语音合成工具的合成水平均已到实用阶段。众所周知,人在阅读过程中所表达的情感可能是多种多样的,比如“Mr. Ding suffers severe paralysis since he is young,but he learns through self-study and finally wins the heart of Ms. Zhao with the help of network,,这句话在阅读中可能前半句话用比较悲伤的情绪阅读,而后半句话用比较高兴的情绪阅读。然而,传统的语音合成技术并不考虑文本内容中所附加的情感信息,也就是说传统的语音合成技术对在进行语音合成时并不考虑待处理的文本所表达的情感是高兴、悲伤还是愤怒等。情感语音合成是近几年语音合成的研究热点,在情感语音合成的研究中所必须解决的问题是确定情感状态和建立情感状态与语音的声学特征的关联关系。现有的情感语音合成技术允许操作者通过人工的方式指定某个句子的情感类别,比如人工的指定“Mr. Ding suffers severe paralysis since he is young,,这句i舌白勺个青感类型为悲伤,"but he learns through self-study and finally wins the heart of Ms. Zhao with the help Of network”这句话的情感类型为高兴,并且在语音合成过程中以指定的情感类型对该句子进行处理。
技术实现思路
本专利技术的专利技术人经研究发现,当前的情感语音合成技术中存在很多没有解决的问题,其一、由于每个句子被赋予了统一的情感类型,因此整个句子都用统一的情感来阅读因此实际效果不够自然、平滑;其二、不同句子被赋予不同的情感类型,因此在句子与句子之间出现比较突兀的情感变化;其三、人工确定句子情感的方式成本较高,不使用于语音合成的批量处理。本专利技术提供一种情感语音合成技术方案,该方案用于解决上述列举的现有技术中存在的至少一个问题。具体而言,本专利技术一种情感语音合成方法,包括接收文本数据;对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及按照所述情感标记对所述文本数据进行语音合成。本专利技术还提供一种情感语音合成系统,包括文本数据接收模块,用于接收文本数据;情感标记生成模块,用于对所述文本数据按韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;以及语音合成模块,用于按照所述情感标记对所述文本数据进行语音合成。通过本专利技术可以使语音合成的效果更加自然,更贴近真实的阅读声音。具体而言, 本专利技术是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本专利技术中的情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数,这使得本专利技术中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本专利技术无需人工干预,也就是说无需人工对每句话指定固定的情感标记。附图说明本说明中所参考的附图只用于示例本专利技术的典型实施例,不应该认为是对本专利技术范围的限制。图1示出了按照本专利技术的一个实施例的情感语音合成方法流程。图2A示出了按照本专利技术的一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。图2B示出了按照本专利技术的另一个实施例对图1中的文本数据按照韵律单元生成情感标记的方法流程。图2C示出了情感矢量调整决策树的片断示意图。图3示出了按照本专利技术的另一个实施例的情感语音合成方法流程。图4A示出了按照本专利技术的一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图4B示出了按照本专利技术的另一个实施例对图3中的文本数据按照韵律单元生成情感标记的方法流程。图5示出了按照本专利技术的一个实施例对图3中的文本数据进行情感平滑处理的方法流程。图6A示出了按照本专利技术的一个实施例进行语音合成的方法流程。图6B示出了按照本专利技术的另一个实施例进行语音合成的方法流程。图6C示出了对基频特征而言在某一情感类型下的语音合成决策树片断示意图。图7示出了按照本专利技术的一个实施例的情感语音合成系统框图。图8A示出了按照本专利技术的一个实施例的情感标记生成模块的框图。图8B示出了按照本专利技术的另一个实施例的情感标记生成模块的框图。图9示出了按照本专利技术的另一个实施例的情感语音合成系统框图。图10示出了按照本专利技术的一个实施例的图9中的情感平滑处理模块框图。具体实施例方式下列讨论中,提供大量具体的细节以帮助彻底了解本专利技术。然而,很显然对于本领域技术人员来说,即使没有这些具体细节,并不影响对本专利技术的理解。并且应该认识到,使用如下的任何具体术语仅仅是为了方便描述,因此,本专利技术不应当局限于只用在这样的术语所表示和/或暗示的任何特定应用中。本专利技术提供一种情感语音合成方法和系统。通过本专利技术可以使语音合成的效果更加自然,更贴近真实的阅读声音。具体而言,本专利技术是基于韵律单元生成情感标记,而不是基于整个句子生成情感标记。并且本专利技术中的情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数,这使得本专利技术中的韵律单元有更丰富更真实的情感表达,而不是局限于一种情感类型。此外本专利技术无需人工干预,也就是说无需人工对每句话指定固定的情感标记。本专利技术可以应用于各种需要实现情感语音合成的产品,包括能够进行自动朗读的电子书,能够进行户动交流的机器人以及各种可以对文字内容进行赋有情感的阅读的语音合成软件等。图1示出了按照本专利技术的一个实施例的情感语音合成方法流程。在步骤101接收文本数据。所述文本数据可以是一句话、一段话或一篇文章。所述文本数据可以是基于用户的指定(比如用户选中的一段话)、也可以是由系统设定的(比如智能机器人对用户询问的回答)。并且所述文本数据可以是中文、英文或任何其它文字。在步骤103对所述文本数据案韵律单元生成情感标记,其中所述情感标记被表示为一组情感矢量,所述情感矢量包括依据多个情感类型所给出的多个情感分数;并且其中所述韵律单元可以是字(word)、词(vocabular)、短语(phrase)。如果所述文本数据是中文,按照本专利技术的一种实施例,可以将所述文本数据分成若干词,每个词作为一个韵律单元,并对每个词生成情感标记。如果所述文本数据是英文,按照本专利技术的一种实施例,可以将所述文本数据分成若干字,每个字作为一个韵律单元,并对每个字生成情感标记。当然, 总体而言,本专利技术对韵律单元的单位没有特别的限定,其可以是比较粗粒度的短语、也可以是比较细粒度的字。粒度越细,情感标记可能越细腻,最终的合成效果可能更接近真实发音,但计算量也会随之增加;粒度越粗,情感标记可能越粗糙,最终的合成效果可能与真实发音有一些差距,但在语音合成中的计算量会相对较低。在步骤105按照所述情感标记对所述文本数本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:双志伟包胜华陈健刘文张世磊苏中施勤秦勇
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术