语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号：31796000 阅读：27 留言：0更新日期：2022-01-08 10:55

本申请为人工智能的语音合成技术领域，本申请提供了一种语音合成方法、装置、设备及存储介质，其中，所述方法包括：识别文本所包含的音素序列，从音素序列中提取出上下文信息；根据上下文信息将音素序列与预设的梅尔频谱进行长度匹配，并根据匹配结果判断是否需要扩展音素序列；若是，则对所述文本进行预处理，确定所述文本对应的对齐信息，基于所述对齐信息扩展所述音素序列，直至所述音素序列的长度与所述预设的梅尔频谱的长度一致，得到目标音素序列；根据目标音素序列合成所述文本对应的语音。本申请根据识别文本中音素序列的上下文信息扩展音素序列长度，使合成的语音具有抑扬顿挫的真实感，提高语音合成效果。提高语音合成效果。提高语音合成效果。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质

[0001]本申请涉及人工智能的语音合成
，具体而言，本申请涉及一种语音合成方法、装置、设备及存储介质。

技术介绍

[0002]语音是人类交际的最重要的工具之一，语音信号处理作为一个重要的研究领域至今已有几十年历史。人类的说话中不仅包含了文字符号信息，而且还包含了人们的感情和情绪的变化。在现代语音信号处理中，分析和处理语音信号中的情感特征，判断和模拟说话人的喜怒哀乐等是一项意义重大的研究课题。
[0003]其中，语音合成作为自然语言处理技术中的一个重要的分支，也随着技术的逐渐成熟进入了一个新的发展阶段。语音合成广泛用于机器人、语音助手等场景中，模拟自然人与用户对话的效果。
[0004]但现有的语音合成技术只是简单地将文本的字词转换成标准的机器语音，这与真人发声的自然语言相差较大，合成效果较差。

技术实现思路

[0005]本申请的主要目的为提供一种语音合成方法、装置、设备及存储介质，以提高语音合成效果，使合成的语音更接近真人发声。
[0006]为...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：识别文本所包含的音素序列，从所述音素序列中提取出上下文信息；根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配，并根据匹配结果判断是否需要扩展所述音素序列；若是，则对所述文本进行预处理，确定所述文本对应的对齐信息，基于所述对齐信息扩展所述音素序列，直至所述音素序列的长度与所述预设的梅尔频谱的长度一致，得到目标音素序列；其中，所述对齐信息表征了待合成语音与所述文本的对齐关系；根据所述目标音素序列合成所述文本对应的语音。2.根据权利要求1所述的方法，其特征在于，所述上下文信息包括所述音素序列的每个音素在所述音素序列中的位置信息，所述根据所述上下文信息将所述音素序列与预设的梅尔频谱进行长度匹配，包括：根据所述位置信息确定每个音素的发音，并生成每个音素的发音频谱；将所述每个音素的发音频谱进行拼接后生成所述音素序列的频谱，得到目标频谱；将所述目标频谱与预设的梅尔频谱进行长度匹配；其中，所述预设的梅尔频谱的获取方法包括：获取专业人员朗读所述文本后生成的语音片段，基于所述语音片段生成声音频谱，将所述声音频谱作为所述预设的梅尔频谱。3.根据权利要求2所述的方法，其特征在于，所述根据所述目标音素序列合成所述文本对应的语音，包括：获取每个音素的发音频谱的幅度值，将所述发音频谱中幅度值大于预设幅度值的部分作为所述目标音素序列的高斯噪声；利用去除所述高斯噪声后的目标音素序列合成所述文本对应的语音。4.根据权利要求1所述的方法，其特征在于，所述基于所述对齐信息扩展所述音素序列，包括：基于所述对齐信息确定所述音素序列中相邻两个音素之间的时间间隔；根据所述时间间隔复制所述两个音素中时间节点在前的音素，得到每个音素对应的扩展音素；将每个音素对应的所述扩展音素对应添加至所述音素序列中。5.根据权利要求1所述的方法，其特征在于，所述基于所述对齐信息扩展所述音素序列，直至所述音素序列的长...

【专利技术属性】
技术研发人员：倪子凡，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人