语音合成方法及相关设备技术

技术编号:19697424 阅读:16 留言:0更新日期:2018-12-08 12:38
本申请提供了语音合成方法及相关设备,该方法包括:根据用户的当前输入语音确定用户身份;根据所述当前输入语音从声学模型库中获得声学模型;根据用户身份确定基础语音合成信息,基础语音合成信息表征声学模型的预设音速、预设音量、预设音高中的变化量;确定回复文本;根据回复文本、上下文信息确定强化语音合成信息,强化语音合成信息表征声学模型的预设音色、语调和预设韵律节奏中的变化量;通过所述声学模型,根据基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成,得到回复用户的语音。实施本申请的方案,能够让设备在人机交互过程中为用户提供个性化的语音合成效果,提升用户的语音交互体验。

【技术实现步骤摘要】
语音合成方法及相关设备
本专利技术涉及语音处理领域,尤其涉及语音合成方法及相关设备。
技术介绍
近年来,人机对话开始广泛进入人们日常生活,常见的场景包括智能客服机器人、智能音箱、聊天机器人等。人机对话的核心在于机器能够在所建的系统框架下,根据事先训练或者学习的数据,自动对用户输入的语音进行理解和分析,并给出有意义的语音回复。在设计中文文本的语音合成系统时,如果仅仅是将输入的文字一一匹配读音库,并将所有字的读音串联起来形成语音输出,那么这样的语音就会很机械生硬,不带语调起伏,听觉体验很差。近年来的发展的TTS(text–to-speed)引擎是一种建立在阅读规则上的语音合成技术,采用TTS引擎进行语音合成能够在单字/词的连接过渡和语气的转折上处理得比较自然,使得机器答复的语音更加贴近人类的说话声音。而现今,现有技术中仅局限于在人机交互的过程中使机器“说话声音像人类”,而并未考虑用户对于人机交互的多样化需求。
技术实现思路
本专利技术实施例提供了语音合成方法及相关设备,使得机器能够在人机交互过程中根据用户喜好或对话环境要求,为用户提供个性化的语音合成效果,改善人机对话的时效性,提升用户的语音交互体验。第一方面,本专利技术实施例提供了一种语音合成方法,该方法可应用于终端设备,包括:终端设备接收用户的当前输入语音,根据用户的当前输入语音确定所述用户的身份;根据所述当前输入语音从预设在所述终端设备中的声学模型库中获得声学模型,所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的两个或两个以上;终端设备根据所述用户的身份确定基础语音合成信息,所述用户的身份关联对应的基础语音合成信息,本专利技术实施例中所述基础语音合成信息又可称基础TTS参数,所述基础TTS参数用于表征语音合成中所采用的声学模型的预设音速、预设音量和所述音高中的一个或多个的变化量;根据所述当前输入语音确定回复文本;终端设备根据所述回复文本、或者根据所述回复文本以及上下文信息来确定强化语音合成信息,本专利技术实施例中所述强化语音合成信息又可称为强化TTS参数,所述强化TTS参数用于表征语音合成中所采用的声学模型的预设音色、预设语调和预设韵律节奏中的一个或多个的变化量;本专利技术实施例中终端设备能够根据所述回复文本、或者根据所述回复文本以及所述当前输入语音的上下文信息来确定当前对话的对话场景;终端设备通过所述声学模型(包括所述声学模型的预设信息),根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成,得到用于呈现给用户的回复语音,从而实现了终端设备与用户的实时对话交互。亦即本专利技术实施例中,声学模型能够根据声学模型的预设信息以及预设信息的变化信息,将回复文本转换成回复语音。可选的,声学模型库中可包括多个声学模型(例如通用声学模型、个性化声学模型等)。这些声学模型皆为神经网络模型,这些神经网络模型可预先由不同的语料进行训练而成。对于每个声学模型而言,每个声学模型皆对应有各自的预设信息,也就是说每个声学模型分别绑定一特定的预设信息,这些预设信息可作为该声学模型的基础输入信息。可选的,由于用户身份可与用户的个人喜好也是相关联的,所以终端也可以根据用户的个人爱好来确定基础语音合成信息。本专利技术实施例中,所述上下文信息可表示当前输入语音的上下文语境或者当前输入语音之前的历史输入语音。可以看到,实施本专利技术实施例的技术方案,在用户与终端设备的人机语音交互中,终端设备一方面根据用户的输入语音生成相应的回复文本,另一方面能够基于对话交互的回复文本以及对话上下文信息,结合当前用户的身份、喜好以及对话情景选择个性化的TTS参数(TTS参数包括基础TTS参数和强化TTS参数),进而终端设备能够根据这些个性化的TTS参数、通过所选取的声学模型来生成特定风格的回复语音,从而实现向用户呈现个性化的语音合成效果,大大提升用户与终端的语音交互体验,改善人机对话的时效性。基于第一方面,在可能的实施方式中,终端设备也允许用户通过语音实时调教终端设备,更新与用户身份、喜好相关联的TTS参数,包括更新基础TTS参数和强化TTS参数,使得调教出来的终端更加贴近用户的交互喜好,最大化提升用户交互体验。基于第一方面,在可能的实施方式中,所述强化TTS参数可进一步分类为语音情感参数和语音场景参数等。所述语音情感参数用于使通过声学模型合成的语音呈现出具体的情感特征,根据情感特征的不同,语音情感参数可进一步分类为中性情感、轻度高兴、中度高兴、极度高兴、轻度悲伤、中度悲伤等参数。所述语音场景参数用于使通过声学模型合成的语音呈现出具体的场景特征,根据场景特征的不同,所述语音场景参数又可进一步划分为日常对话、诗词朗诵、歌曲哼唱、故事讲述、新闻播报等等参数,也就是说语音合成中采用这些语音场景参数将能够使合成语音呈现出日常对话、诗词朗诵、歌曲哼唱、故事讲述、新闻播报等语音场景的声音效果。下面以“诗词朗诵”为例描述在语音合成中采用“诗词朗诵”相关的语音场景参数的实施方式。本专利技术实施例中,确定当前对话为“诗词朗诵”的语音场景的方式可包括:(1)在对话过程中,用户的输入语音所包含的用户意图明确指示当前对话为“诗词朗诵”的语音场景;(2)在普通对话中,用户虽没有明确的意图明确指示当前对话为“诗词朗诵”,但终端设备还是可判断回复文本的内容是否涉及了诗、词、曲、赋等特定文学样式的一种或多种,比如涉及到五言绝句或七言绝句或律诗,或者涉及到具体的词牌或曲牌等;(3)终端设备预先存储各种文学样式(或句法格式)对应的字数、句子个数、每句字数的顺序等文学样式特征,通过分析回复文本中的标点(停顿)、字数、句子个数、每句字数的顺序等特征,将该回复文本中的一段文本或全部文本与预存的文学样式特征做匹配,如果匹配成功,则该符合预存的文学样式特征的一段文本或全部文本即可作为采用“诗词朗诵”的语音场景的文本。本专利技术实施例中,“诗词朗诵”的语音场景注重语音的韵律节奏,“诗词朗诵”的语音场景参数用于调整符合特定文学样式(或句法格式)的输入文本的语音停顿位置/停顿时间(即对文本内容的分词)、单字或单词朗读时长、重音位置,从而实现对韵律节奏进行强化。强化后的韵律节奏相对于普通对话时的自然状态的韵律节奏而言,具有更加清晰和强烈情感表述,例如,在朗读诗词、儿歌排比句等特定句法格式时,强化后的韵律节奏能够产生的“抑扬顿挫”感觉。具体实现中,“诗词朗诵”的语音场景参数可通过韵律节奏模板来实现,对于每一种特定文学样式的文本内容,可对应于一种韵律节奏模板。所述文学样式表征了诗词曲的体裁,例如文学样式为古体诗、近体诗(如五言绝句、七言绝句)、律诗(如五言律诗、七言律诗)、词(如小令、中词、长词)、曲(包括各种曲调、曲牌等),对于每种韵律节奏模板而言,其定义了该模板中各个位置的字的音量变化(即该字音量的轻重)和音长的变化(即该字发音时间的长短)、以及该文本中语音的停顿位置/停顿时间(即对文本内容的分词),等等。具体的,在可能的实施方式中,当终端根据回复文本、上下文信息确定当前对话处于“诗词朗诵”的语音场景时,终端根据所述回复文本、上下文信息确定强化语音合成信息的过程具体包括:通过分析所述回复文本来确定所述回复文本的文学样式特征,所述本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:根据用户的当前输入语音确定所述用户的身份;根据所述当前输入语音从预设的声学模型库中获得声学模型,所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的多个;根据所述用户的身份确定基础语音合成信息,所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量;根据所述当前输入语音确定回复文本;根据所述回复文本、所述当前输入语音的上下文信息确定强化语音合成信息,所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量;通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:根据用户的当前输入语音确定所述用户的身份;根据所述当前输入语音从预设的声学模型库中获得声学模型,所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的多个;根据所述用户的身份确定基础语音合成信息,所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量;根据所述当前输入语音确定回复文本;根据所述回复文本、所述当前输入语音的上下文信息确定强化语音合成信息,所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量;通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。2.根据权利要求1所述的方法,其特征在于,所述根据所述回复文本、上下文信息确定强化语音合成信息,包括:根据所述回复文本确定所述回复文本的文学样式特征,所述文学样式特征包括所述回复文本中的部分或全部内容的句子个数、每句字数和句子字数的排列顺序中的一个或多个;根据所述回复文本的文学样式特征选取对应的预设韵律节奏的变化量;其中,所述文学样式特征与所述预设韵律节奏的变化量之间具有对应关系,所述预设韵律节奏的变化量表示所述回复文本的部分或全部内容中的字符的朗读时长、朗读停顿位置、朗读停顿时间、重音各自的变化。3.根据权利要求1或2所述的方法,其特征在于,所选取的声学模型的所述预设信息还包括语言风格特征,所述语言风格特征具体包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓中的一个或多个。4.根据权利要求1-3任一项所述的方法,其特征在于,所述声学模型库中的声学模型有多个;所述根据所述当前输入语音从预设的声学模型库中获得声学模型,包括:根据所述用户的身份确定所述用户的喜好;根据所述用户的喜好从所述声学模型库中选取声学模型。5.根据权利要求1-3任一项所述的方法,其特征在于,所述声学模型库中的声学模型有多个,每个声学模型分别具有一个声模标识;所述根据所述当前输入语音从预设的声学模型库中获得声学模型包括:根据所述当前输入语音的内容,确定与所述当前输入语音的内容相关的声模标识;从所述声学模型库中选取对应于所述声模标识的声学模型。6.根据权利要求1-3任一项所述的方法,其特征在于,所述声学模型库中的声学模型有多个;所述根据所述当前输入语音从预设的声学模型库中获得声学模型包括:根据所述用户的身份选取所述声学模型中的多个声学模型;确定所述多个声学模型中的各个声学模型的权重值;其中,所述各个声学模型的权重值是用户预先设置的,或者,所述各个声学模型的权重值是预先根据所述用户的喜好而确定的;将所述各个声学模型基于所述权重值进行融合,获得融合后的声学模型。7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据用户的当前输入语音确定所述用户的身份之前,还包括:根据所述用户的历史输入语音确定目标字符与用户偏好读音之间的对应关系,将所述目标字符与用户偏好读音之间的对应关系关联所述用户的身份;相应的,所述通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成,包括:当所述回复文本中存在与所述用户的身份关联的所述目标字符时,通过所述声学模型,根据所述目标字符与用户偏好读音之间的对应关系、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:根据所述回复文本从预设的音乐库中选取背景音效,所述背景音效为音乐或声音特效;相应的,所述通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成,包括:通过所述声学模型,根据所述背景音效、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。9.根据权利要求8所述的方法,其特征在于,所述背景音效具有一个或多个情感极性类型的标识和情感强度的标识;所述情感极性类型的标识用于指示以下至少一种情感:快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶;所述情感强度的标识用于指示所述至少一种情感各自的程度值;所述根据所述回复文本从预设的音乐库中选取背景音效,包括:将所述回复文本的内容拆分成多个子内容,分别确定各个子内容的情感极性类型和情感强度;根据所述各个子内容的情感极性类型和情感强度,在所述预设的音乐库中选取最匹配的背景音效;其中,所述最匹配的背景音效包括多个子片段,各个子片段分别具有情感极性类型的标识和情感强度的标识,所述各个子片段具有的情感极性类型的标识所指示的情感极性类型分别与所述各个子内容的情感极性类型相同,且所述各个子片段具有的情感强度的标识所指示的情感...

【专利技术属性】
技术研发人员:包飞邓利群孙文华曾毓珑魏建生胡月志黄茂胜黄雪妍李志刚
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1