语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号:31796000 阅读:17 留言:0更新日期:2022-01-08 10:55
本申请为人工智能的语音合成技术领域,本申请提供了一种语音合成方法、装置、设备及存储介质,其中,所述方法包括:识别文本所包含的音素序列,从音素序列中提取出上下文信息;根据上下文信息将音素序列与预设的梅尔频谱进行长度匹配,并根据匹配结果判断是否需要扩展音素序列;若是,则对所述文本进行预处理,确定所述文本对应的对齐信息,基于所述对齐信息扩展所述音素序列,直至所述音素序列的长度与所述预设的梅尔频谱的长度一致,得到目标音素序列;根据目标音素序列合成所述文本对应的语音。本申请根据识别文本中音素序列的上下文信息扩展音素序列长度,使合成的语音具有抑扬顿挫的真实感,提高语音合成效果。提高语音合成效果。提高语音合成效果。

【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质


[0001]本申请涉及人工智能的语音合成
,具体而言,本申请涉及一种语音合成方法、装置、设备及存储介质。

技术介绍

[0002]语音是人类交际的最重要的工具之一,语音信号处理作为一个重要的研究领域至今已有几十年历史。人类的说话中不仅包含了文字符号信息,而且还包含了人们的感情和情绪的变化。在现代语音信号处理中,分析和处理语音信号中的情感特征,判断和模拟说话人的喜怒哀乐等是一项意义重大的研究课题。
[0003]其中,语音合成作为自然语言处理技术中的一个重要的分支,也随着技术的逐渐成熟进入了一个新的发展阶段。语音合成广泛用于机器人、语音助手等场景中,模拟自然人与用户对话的效果。
[0004]但现有的语音合成技术只是简单地将文本的字词转换成标准的机器语音,这与真人发声的自然语言相差较大,合成效果较差。

技术实现思路

[0005]本申请的主要目的为提供一种语音合成方法、装置、设备及存储介质,以提高语音合成效果,使合成的语音更接近真人发声。
[0006]为了实现上述专利技术目的,本申请提供一种语音合成方法,其包括以下步骤:
[0007]识别文本所包含的音素序列,从所述音素序列中提取出上下文信息;
[0008]根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配,并根据匹配结果判断是否需要扩展所述音素序列;
[0009]若是,则对所述文本进行预处理,确定所述文本对应的对齐信息,基于所述对齐信息扩展所述音素序列,直至所述音素序列的长度与所述预设的梅尔频谱的长度一致,得到目标音素序列;其中,所述对齐信息表征了待合成语音与所述文本的对齐关系;
[0010]根据所述目标音素序列合成所述文本对应的语音。
[0011]优选地,所述上下文信息包括所述音素序列的每个音素在所述音素序列中的位置信息,所述根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配,包括:
[0012]根据所述位置信息确定每个音素的发音,并生成每个音素的发音频谱;
[0013]将所述每个音素的发音频谱进行拼接后生成所述音素序列的频谱,得到目标频谱;
[0014]将所述目标频谱与预设的梅尔频谱进行长度匹配;其中,所述预设的梅尔频谱的获取方法包括:
[0015]获取专业人员朗读所述文本后生成的语音片段,基于所述语音片段生成声音频谱,将所述声音频谱作为所述预设的梅尔频谱。
[0016]优选地,所述基于所述对齐信息扩展所述音素序列,包括:
[0017]基于所述对齐信息确定所述音素序列中相邻两个音素之间的时间间隔;
[0018]根据所述时间间隔复制所述两个音素中时间节点在前的音素,得到每个音素对应的扩展音素;
[0019]将每个音素对应的所述扩展音素对应添加至所述音素序列中。
[0020]优选地,所述根据所述目标音素序列合成所述文本对应的语音,包括:
[0021]获取每个音素的发音频谱的幅度值,将所述发音频谱中幅度值大于预设幅度值的部分作为所述目标音素序列的高斯噪声;
[0022]利用去除所述高斯噪声后的目标音素序列合成所述文本对应的语音。
[0023]优选地,所述基于所述对齐信息扩展所述音素序列,直至所述音素序列的长度与所述预设的梅尔频谱的长度一致之后,包括:
[0024]调整扩展后的所述音素序列的语音速度,将调整语音速度后的所述音素序列作为所述目标音素序列。
[0025]优选地,所述识别文本所包含的音素序列,包括:
[0026]将所述文本进行分词处理,以获取多个分词;
[0027]确定所述每个分词对应的子音素序列;
[0028]将所有分词对应的子音素序列按照预设的组合方式进行组合,生成所述文本的音素序列。
[0029]优选地,所述从所述音素序列中提取出上下文信息,包括:
[0030]将所述音素序列分解为多个音素,并确定每个音素的嵌入向量;
[0031]对每个音素的嵌入向量进行非线性变换,得到每个音素对应的非线性特征;
[0032]确定与每个音素的非线性特征对应的上下文特征,将每个音素的所述上下文特征进行拼接,得到所述上下文信息。
[0033]本申请还提供一种语音合成装置,其包括:
[0034]识别模块,用于识别文本所包含的音素序列,从所述音素序列中提取出上下文信息;
[0035]匹配模块,用于根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配,并根据匹配结果判断是否需要扩展所述音素序列;
[0036]扩展模块,用于在需要扩展所述音素序列时,则对所述文本进行预处理,确定所述文本对应的对齐信息,基于所述对齐信息扩展所述音素序列,直至所述音素序列的长度与所述预设的梅尔频谱的长度一致,得到目标音素序列;其中,所述对齐信息表征了待合成语音与所述文本的对齐关系;
[0037]合成模块,用于根据所述目标音素序列合成所述文本对应的语音。
[0038]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0039]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
[0040]本申请所提供的一种语音合成方法、装置、设备及存储介质,识别文本所包含的音素序列,从音素序列中提取出上下文信息;根据上下文信息将音素序列与预设的梅尔频谱进行长度匹配,并根据匹配结果判断是否需要扩展音素序列;若是,则对文本进行预处理,
确定文本对应的对齐信息,基于对齐信息扩展音素序列,直至所述音素序列的长度与所述预设的梅尔频谱的长度一致,得到目标音素序列;根据目标音素序列合成所述文本对应的语音,由于音素序列中每个音素的发音与上下文信息相关,从而根据识别文本中音素序列的上下文信息精确扩展音素序列的长度,并使其与目标音素序列的长度保持一致,以使合成的语音具有抑扬顿挫的真实感,提高语音合成效果。
附图说明
[0041]图1为本申请一实施例的语音合成方法的流程示意图;
[0042]图2为本申请一实施例的语音合成装置的结构示意框图;
[0043]图3为本申请一实施例的计算机设备的结构示意框图。
[0044]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0045]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0046]本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:识别文本所包含的音素序列,从所述音素序列中提取出上下文信息;根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配,并根据匹配结果判断是否需要扩展所述音素序列;若是,则对所述文本进行预处理,确定所述文本对应的对齐信息,基于所述对齐信息扩展所述音素序列,直至所述音素序列的长度与所述预设的梅尔频谱的长度一致,得到目标音素序列;其中,所述对齐信息表征了待合成语音与所述文本的对齐关系;根据所述目标音素序列合成所述文本对应的语音。2.根据权利要求1所述的方法,其特征在于,所述上下文信息包括所述音素序列的每个音素在所述音素序列中的位置信息,所述根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配,包括:根据所述位置信息确定每个音素的发音,并生成每个音素的发音频谱;将所述每个音素的发音频谱进行拼接后生成所述音素序列的频谱,得到目标频谱;将所述目标频谱与预设的梅尔频谱进行长度匹配;其中,所述预设的梅尔频谱的获取方法包括:获取专业人员朗读所述文本后生成的语音片段,基于所述语音片段生成声音频谱,将所述声音频谱作为所述预设的梅尔频谱。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标音素序列合成所述文本对应的语音,包括:获取每个音素的发音频谱的幅度值,将所述发音频谱中幅度值大于预设幅度值的部分作为所述目标音素序列的高斯噪声;利用去除所述高斯噪声后的目标音素序列合成所述文本对应的语音。4.根据权利要求1所述的方法,其特征在于,所述基于所述对齐信息扩展所述音素序列,包括:基于所述对齐信息确定所述音素序列中相邻两个音素之间的时间间隔;根据所述时间间隔复制所述两个音素中时间节点在前的音素,得到每个音素对应的扩展音素;将每个音素对应的所述扩展音素对应添加至所述音素序列中。5.根据权利要求1所述的方法,其特征在于,所述基于所述对齐信息扩展所述音素序列,直至所述音素序列的长...

【专利技术属性】
技术研发人员:倪子凡王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1