语音合成装置、方法、移动终端及存储介质制造方法及图纸

技术编号：38479210 阅读：25 留言：0更新日期：2023-08-15 16:57

本申请提供语音合成装置、方法、移动终端及存储介质。装置中预训练模块获取通用样本信息，根据预设的特征提取模型进行特征提取预训练，其中特征提取模型基于注意力机制构建；第一特征提取模块用于获取录入样本信息并根据特征提取模型对录入样本信息特征提取获取用户特征；音素处理模块用于获取音素特征并根据音素特征和用户特征获取第一音素处理结果；时长预测模块用于预测第一音素处理结果的帧长；声学解码模块用于根据时长预测结果和第一音素处理结果生成第一声学特征；第一声码模块用于根据第一声学特征语音合成获取第一音频数据。由于语音合成装置从少量录入样本信息中提取到用户特征，解决了现有技术需要大量录入样本的问题。本的问题。本的问题。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成装置、方法、移动终端及存储介质

[0001]本申请涉及计算机
，尤其涉及一种语音合成装置、方法、移动终端及存储介质。

技术介绍

[0002]语音合成指将文本信息转化为目标说话人语音信息的方法。现有语音合成装置分为三个模块：前端、声学模型和声码器。前端将用户输入的文本信息转化为对应的音素特征，声学模型通过用户存储的录入样本信息训练得到，并根据音素特征生成对应的声学特征，并发送给声码器，声码器根据声学特征进行语音合成，得到与文本信息对应的合成语音。
[0003]但是，现有的语音合成装置需要大量的录入样本信息才能实现语音流畅，当用户无法提供足够多的语音样本时，往往会出现语音沙哑，声音与本人区别大的问题。

技术实现思路

[0004]本申请实施例提供了一种语音合成装置、方法、移动终端及存储介质。本申请实施例提供的语音合成装置在现有的语音合成装置的基础上，增设了第一特征提取模块，用于提取录入样本信息中的发音特征。本申请提供的预训练模块根据大量的通用样本信息对特征提取模型进行预训练，而特征提取模型本身...

【技术保护点】

【技术特征摘要】
1.一种语音合成装置，其特征在于，包括：预训练模块，用于获取通用样本信息，根据预先设置的特征提取模型进行特征提取预训练，其中所述特征提取模型基于注意力机制构建；第一特征提取模块，用于获取录入样本信息并根据预训练后的所述特征提取模型对所述录入样本信息进行特征提取，获取用户特征；音素处理模块，用于获取音素特征并根据所述音素特征和所述用户特征获取第一音素处理结果；时长预测模块，用于预测所述第一音素处理结果的帧长，得到第一时长预测结果；声学解码模块，用于根据所述第一时长预测结果和所述第一音素处理结果生成第一声学特征；第一声码模块，用于通过声码器对所述第一声学特征进行语音合成，获取第一音频数据。2.根据权利要求1所述的装置，其特征在于，所述用户特征包括第一用户特征，第一特征提取模块包括：预处理子模块，用于获取所述录入样本信息并对所述录入样本信息进行预编码获取第一预编码结果；第二特征提取子模块，用于根据所述注意力机制对所述第一预编码结果进行特征提取获取所述第一用户特征。3.根据权利要求2所述的方法，其特征在于，所述第二特征提取子模块包括：第三特征提取单元，用于根据所述注意力机制对所述第一预编码结果进行特征提取，获取特征提取结果；编码单元，用于根据所述特征提取结果进行编码处理获取所述第一用户特征。4.根据权利要求2所述的装置，其特征在于，所述用户特征还包括第二用户特征，所述第一特征提取模块还包括：所述预处理子模块还用于对所述录入样本信息进行随机掩码获取随机掩码结果，并对所述随机掩码结果预编码获取第二预编码结果；编码子模块，用于根据所述注意力机制对所述第二预编码结果进行特征提取获取所述第二用户特征；预测子模块，用于根据所述第二用户特征进行掩码还原获取掩码还原信息，还用于根据所述掩码还原信息和所述录入样本信息进行损失函数计算，获取损失函数计算结果。5.根据权利要求1所述的装置，其特征在于，所述音素处理模块包括：音素特征获取单元，用于获取所述音素特征...

【专利技术属性】
技术研发人员：李婉，陈明，李健，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人