文本到语音的转换方法、装置和计算机设备制造方法及图纸

技术编号：18864694 阅读：41 留言：0更新日期：2018-09-05 16:09

本申请提出一种文本到语音的转换方法、装置和计算机设备，上述文本到语音的转换方法包括：获取待转换文本对应的帧；获取所述帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述当前帧的上一帧对应的线性谱的映射特征；将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱；在获得所述待转换文本对应的帧的线性谱之后，根据所述待转换文本对应的帧的线性谱，获得所述待转换文本对应的语音。本申请可以实现直接根据待转换文本对应的帧的线性谱，获得待转换文本对应的语音，由于未引入近似误差，因此获得的语音的音质更佳，整体流畅度更好。

Text to speech conversion method, device and computer equipment

The present application proposes a text-to-speech conversion method, apparatus, and computer device. The text-to-speech conversion method includes: acquiring a frame corresponding to the text to be converted; acquiring vector features and text prosodic features of the corresponding phonemes of the current frame in the frame; and acquiring a linear spectrum corresponding to the previous frame of the current frame. After obtaining the linear spectrum of the frame corresponding to the text to be converted, the linear spectrum of the frame corresponding to the text to be converted is obtained according to the linear spectrum of the frame corresponding to the text to be converted. Change the text corresponding to the voice. The application can obtain the speech corresponding to the text to be converted directly according to the linear spectrum of the frame corresponding to the text to be converted. Since no approximate error is introduced, the speech quality obtained is better and the overall fluency is better.

全部详细技术资料下载

【技术实现步骤摘要】
文本到语音的转换方法、装置和计算机设备
本申请涉及语音合成
，尤其涉及一种文本到语音的转换方法、装置和计算机设备。
技术介绍
TTS是从文本到语音(TextToSpeech)的缩写，是人机对话的一部分，目的是让机器能够根据文本说话。音子是人类说话的最小发声单元，在中文中，音子就是每一个声母或韵母。为了能让机器能根据文本发出对应的声音，需要对每一个音子的声学模型进行建模。现有相关技术中使用声码器进行建模，这种建模方法先将语音信号进行分帧处理，然后对每一帧的声学模型分成三块进行建模：(1)这一帧是否需要发声；(2)这一帧的基础频率；(3)这一帧相对于基础频率的冲击响应。但是这种方法由于使用了人类研究得出的先验知识进行了近似，因而有一定的信息损失，使得最终合成的声音效果机械感比较重，听感较差，无法和自然人声相比。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请的第一个目的在于提出一种文本到语音的转换方法，以实现直接根据待转换文本对应的帧的线性谱，获得待转换文本对应的语音，由于未引入近似误差，因此获得的语音的音质更佳，整体流畅度更好。...

【技术保护点】
1.一种文本到语音的转换方法，其特征在于，包括：获取待转换文本对应的帧；获取所述帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述当前帧的上一帧对应的线性谱的映射特征；将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱；在获得所述待转换文本对应的帧的线性谱之后，根据所述待转换文本对应的帧的线性谱，获得所述待转换文本对应的语音。

【技术特征摘要】
1.一种文本到语音的转换方法，其特征在于，包括：获取待转换文本对应的帧；获取所述帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述当前帧的上一帧对应的线性谱的映射特征；将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱；在获得所述待转换文本对应的帧的线性谱之后，根据所述待转换文本对应的帧的线性谱，获得所述待转换文本对应的语音。2.根据权利要求1所述的方法，其特征在于，所述获取所述当前帧的上一帧对应的线性谱的映射特征包括：将所述当前帧的上一帧对应的线性谱输入由两层全连接层组成的神经网络进行映射，获得所述当前帧的上一帧对应的线性谱的映射特征。3.根据权利要求1所述的方法，其特征在于，所述根据所述待转换文本对应的帧的线性谱，获得所述待转换文本的语音包括：从所述待转换文本对应的帧的线性谱中通过迭代获得所述待转换文本对应的语音的相位谱；根据所述待转换文本对应的语音的相位谱，通过反向短时傅里叶变换算法生成所述待转换文本对应的语音。4.根据权利要求1所述的方法，其特征在于，所述将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱包括：将获取的向量特征、文本韵律特征和映射特征经过一层全连接层进行降维后，输入由至少两个存在残差连接的卷积单元组成的网络中，经过一层全连接层进行升采样后，获得所述当前帧对应的线性谱。5.根据权利要求4所述的方法，其特征在于，所述卷积单元包括两个一维卷积核，其中一个卷积核的输出通过激活函数规整到预定区间上；所述卷积单元的输出为一个卷积核规整到预定区间上的输出结果与另一个卷积核未通过激活函数的输出结果的对应元素的乘积。6.根据权利要求1-5任意一项所述的方法，其特征在于，所述将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱之前，还包括：获取训练文本对应的帧；获取所述训练文本对应的帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述训练文本对应的语音中所述当前帧的上一帧语音对应的线性谱的映射特征；将获取的向量特征、文本韵律特征和映射特征输入待训练的神经网络模型，获得所述当前帧对应的线性谱；在获得所述训练文本对应的帧的线性谱之后，根据所述训练文本对应的帧的线性谱，获得所述训练文本对应的语音；当获得的所述训练文本对应的语音满足预定条件时，获得训练好的神经网络模型。7.一种文本到语音的转换装置，其特征在于，包括：获取模块，用于获取待转换文本对应的帧；获取所述帧中...

【专利技术属性】
技术研发人员：张黄斌，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人