词声学特征系统、词声学特征系统的训练方法及系统技术方案

技术编号：29258301 阅读：28 留言：0更新日期：2021-07-13 17:30

本发明专利技术实施例提供一种词声学特征系统的训练方法。该方法包括：将词声学特征系统输出的词声学特征，与音素编码器输出的音素特征序列拼接，得到带有词声学特征的音素特征序列，与实际韵律特征拼接，得到带有韵律与词声学特征的音素特征序列；调节编码长度，加入音高与能量特征后，进行解码，得到预测梅尔频谱；基于实际梅尔频谱与预测梅尔频谱对词声学特征系统进行训练。本发明专利技术实施例还提供一种词声学特征系统以及一种词声学特征系统的训练系统。本发明专利技术实施例利用训练的词声学特征系统得到不但具有词义，而且还具有发音的词声学特征，并且通过对词声学特征系统不断的训练，使词声学特征更加准确，从而在语音合成时进一步提升语音合成的质量。

全部详细技术资料下载

【技术实现步骤摘要】
词声学特征系统、词声学特征系统的训练方法及系统
本专利技术涉及智能语音领域，尤其涉及一种词声学特征系统、词声学特征系统的训练方法及系统。
技术介绍
具有序列到序列体系结构的端到端文本到语音合成模型在生成自然语音方面取得了巨大的成功。通过文本分析或者从预训练模型中抽取词的向量表征，通过词向量编码器之后与音素特征序列(音素编码器的输出)进行对齐与拼接来特征词特征。获取这些特征向量的方式包括：通过统计的方法获得词特征，如词频等，再利用文本分析的方法生成词特征向量；从常见的机器学习任务(如翻译任务)中抽取编码器输出作为词向量；利用BERT编码层抽取词向量；利用GloVe模型中抽取词向量。在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：这些模型或者文本分析方法关注词的词义而非词的发音，仅将音素用作输入令牌，而忽略有关音素来自哪个单词的信息。且在训练过程中词向量固定不变。因此这些表征词意的特征向量对提高合成质量效果较差。
技术实现思路
为了至少解决现有...

【技术保护点】
1.一种词声学特征系统，包括：/n词编码器，用于接收词序列和位置编码，输出词特征；/n词音素对齐器，用于利用音素序列中各音素对应的词，对所述词特征对齐处理，输出与所述音素序列长度对应的词特征，以供所述词特征与所述音素特征拼接，得到词声学特征。/n

【技术特征摘要】
1.一种词声学特征系统，包括：
词编码器，用于接收词序列和位置编码，输出词特征；
词音素对齐器，用于利用音素序列中各音素对应的词，对所述词特征对齐处理，输出与所述音素序列长度对应的词特征，以供所述词特征与所述音素特征拼接，得到词声学特征。

2.一种词声学特征系统的训练方法，包括：
将权利要求1所述的词声学特征系统输出的词声学特征，与音素编码器输出的音素特征序列拼接，得到带有词声学特征的音素特征序列，将所述带有词声学特征的音素特征序列与通过韵律提取器从实际梅尔频谱提取的实际韵律特征拼接，得到带有韵律与词声学特征的音素特征序列；
调节所述带有韵律与词声学特征的音素特征序列的编码长度，加入从所述实际梅尔频谱中提取的音高与能量特征后，进行解码，得到预测梅尔频谱；
基于所述实际梅尔频谱与所述预测梅尔频谱对所述词声学特征系统进行训练。

3.根据权利要求2所述的方法，其中，所述调节所述带有韵律与词声学特征的音素特征序列的编码长度，加入从所述实际梅尔频谱中提取的音高与能量特征后，进行解码，得到预测梅尔频谱包括：
利用可变信息适配器中的长度调节器调节所述带有韵律与词声学特征的音素特征序列的编码长度后加入从所述实际梅尔频谱中提取的音高与能量特征，得到预测音素特征序列；
将所述预测音素特征序列输入至梅尔频谱解码器，得到预测梅尔频谱。

4.一种语音合成方法，包括：
将待合成文本的词序列输入至权利要求1所述的词声学特征系统，得到所述待合成文本的词声学特征，将所述词声学特征与音素编码器的输出进行拼接，得到带有词声学特征的音素特征序列；
通过韵律预测器确定所述带有词声学特征的音素特征序列的预测韵律特征，将所述词声学特征与所述预测韵律特征拼接，得到带有韵律与词声学特征的音素特征序列确定为预测音素特征序列；
调节所述预测音素特征序列的编码长度，加入从所述预测音素特征序列中预测的音高与能量特征后进行解码，得到预测梅尔频谱，基于所述预测梅尔频谱生成语音音频。

5.根据权利要求4所述的方法，其中，在将待合成文本的词序列输入至词声学特征系统之前，所述方法还包括：对所述词序列进行文本归一化。

6...

【专利技术属性】
技术研发人员：俞凯，沈飞宇，杜晨鹏，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人