【技术实现步骤摘要】
语音合成方法及相关设备
本专利技术涉及语音处理领域,尤其涉及语音合成方法及相关设备。
技术介绍
近年来,人机对话开始广泛进入人们日常生活,常见的场景包括智能客服机器人、智能音箱、聊天机器人等。人机对话的核心在于机器能够在所建的系统框架下,根据事先训练或者学习的数据,自动对用户输入的语音进行理解和分析,并给出有意义的语音回复。在设计中文文本的语音合成系统时,如果仅仅是将输入的文字一一匹配读音库,并将所有字的读音串联起来形成语音输出,那么这样的语音就会很机械生硬,不带语调起伏,听觉体验很差。近年来的发展的TTS(text–to-speed)引擎是一种建立在阅读规则上的语音合成技术,采用TTS引擎进行语音合成能够在单字/词的连接过渡和语气的转折上处理得比较自然,使得机器答复的语音更加贴近人类的说话声音。而现今,现有技术中仅局限于在人机交互的过程中使机器“说话声音像人类”,而并未考虑用户对于人机交互的多样化需求。
技术实现思路
本专利技术实施例提供了语音合成方法及相关设备,使得机器能够在人机交互过程中根据用户喜好或对话环境要求,为用户提供个性化的语音合成效果,改善人机对话的时效性,提升用户的语音交互体验。第一方面,本专利技术实施例提供了一种语音合成方法,该方法可应用于终端设备,包括:终端设备接收用户的当前输入语音,根据用户的当前输入语音确定所述用户的身份;根据所述当前输入语音从预设在所述终端设备中的声学模型库中获得声学模型,所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的两个或两个以上;终端设备根据所述用户的身份确定基础语音 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:根据用户的当前输入语音确定所述用户的身份;根据所述当前输入语音从预设的声学模型库中获得声学模型,所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的多个;根据所述用户的身份确定基础语音合成信息,所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量;根据所述当前输入语音确定回复文本;根据所述回复文本、所述当前输入语音的上下文信息确定强化语音合成信息,所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量;通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:根据用户的当前输入语音确定所述用户的身份;根据所述当前输入语音从预设的声学模型库中获得声学模型,所述声学模型的预设信息包括预设音速、预设音量、预设音高、预设音色、预设语调和预设韵律节奏中的多个;根据所述用户的身份确定基础语音合成信息,所述基础语音合成信息包括所述预设音速、所述预设音量和所述预设音高中的一个或多个的变化量;根据所述当前输入语音确定回复文本;根据所述回复文本、所述当前输入语音的上下文信息确定强化语音合成信息,所述强化语音合成信息包括所述预设音色、所述预设语调和所述预设韵律节奏中的一个或多个的变化量;通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。2.根据权利要求1所述的方法,其特征在于,所述根据所述回复文本、上下文信息确定强化语音合成信息,包括:根据所述回复文本确定所述回复文本的文学样式特征,所述文学样式特征包括所述回复文本中的部分或全部内容的句子个数、每句字数和句子字数的排列顺序中的一个或多个;根据所述回复文本的文学样式特征选取对应的预设韵律节奏的变化量;其中,所述文学样式特征与所述预设韵律节奏的变化量之间具有对应关系,所述预设韵律节奏的变化量表示所述回复文本的部分或全部内容中的字符的朗读时长、朗读停顿位置、朗读停顿时间、重音各自的变化。3.根据权利要求1或2所述的方法,其特征在于,所选取的声学模型的所述预设信息还包括语言风格特征,所述语言风格特征具体包括口头禅、对特定场景的应答方式、智慧类型、性格类型、夹杂的流行语言或方言、对特定人物的称谓中的一个或多个。4.根据权利要求1-3任一项所述的方法,其特征在于,所述声学模型库中的声学模型有多个;所述根据所述当前输入语音从预设的声学模型库中获得声学模型,包括:根据所述用户的身份确定所述用户的喜好;根据所述用户的喜好从所述声学模型库中选取声学模型。5.根据权利要求1-3任一项所述的方法,其特征在于,所述声学模型库中的声学模型有多个,每个声学模型分别具有一个声模标识;所述根据所述当前输入语音从预设的声学模型库中获得声学模型包括:根据所述当前输入语音的内容,确定与所述当前输入语音的内容相关的声模标识;从所述声学模型库中选取对应于所述声模标识的声学模型。6.根据权利要求1-3任一项所述的方法,其特征在于,所述声学模型库中的声学模型有多个;所述根据所述当前输入语音从预设的声学模型库中获得声学模型包括:根据所述用户的身份选取所述声学模型中的多个声学模型;确定所述多个声学模型中的各个声学模型的权重值;其中,所述各个声学模型的权重值是用户预先设置的,或者,所述各个声学模型的权重值是预先根据所述用户的喜好而确定的;将所述各个声学模型基于所述权重值进行融合,获得融合后的声学模型。7.根据权利要求1-6任一项所述的方法,其特征在于,所述根据用户的当前输入语音确定所述用户的身份之前,还包括:根据所述用户的历史输入语音确定目标字符与用户偏好读音之间的对应关系,将所述目标字符与用户偏好读音之间的对应关系关联所述用户的身份;相应的,所述通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成,包括:当所述回复文本中存在与所述用户的身份关联的所述目标字符时,通过所述声学模型,根据所述目标字符与用户偏好读音之间的对应关系、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。8.根据权利要求1至7任一项所述的方法,其特征在于,所述方法还包括:根据所述回复文本从预设的音乐库中选取背景音效,所述背景音效为音乐或声音特效;相应的,所述通过所述声学模型,根据所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成,包括:通过所述声学模型,根据所述背景音效、所述基础语音合成信息和所述强化语音合成信息对所述回复文本进行语音合成。9.根据权利要求8所述的方法,其特征在于,所述背景音效具有一个或多个情感极性类型的标识和情感强度的标识;所述情感极性类型的标识用于指示以下至少一种情感:快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶;所述情感强度的标识用于指示所述至少一种情感各自的程度值;所述根据所述回复文本从预设的音乐库中选取背景音效,包括:将所述回复文本的内容拆分成多个子内容,分别确定各个子内容的情感极性类型和情感强度;根据所述各个子内容的情感极性类型和情感强度,在所述预设的音乐库中选取最匹配的背景音效;其中,所述最匹配的背景音效包括多个子片段,各个子片段分别具有情感极性类型的标识和情感强度的标识,所述各个子片段具有的情感极性类型的标识所指示的情感极性类型分别与所述各个子内容的情感极性类型相同,且所述各个子片段具有的情感强度的标识所指示的情感...
【专利技术属性】
技术研发人员:包飞,邓利群,孙文华,曾毓珑,魏建生,胡月志,黄茂胜,黄雪妍,李志刚,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。