当前位置: 首页 > 专利查询>中国铁道科学研究院集团有限公司电子计算技术研究所北京经纬信息技术有限公司专利>正文

用于虚拟交互的带情感语音合成方法技术

技术编号：39494039 阅读：9 留言：0更新日期：2023-11-24 11:19

本申请公开了一种用于虚拟交互的带情感语音合成方法，包括：将音素序列分别输入音素编码器和位置编码器中处理，将音素编码器和位置编码器的音素序列输出相加后送入编码器中进行编码，提取高维隐藏特征；将合成语音所需文本对应的虚拟形象视频流输入一虚拟形象编码器中处理，获取详细情感信息特征；将编码器和虚拟形象编码器的输出分别输入一方差适应器中进行合成计算，获得音素时长

全部详细技术资料下载

【技术实现步骤摘要】
用于虚拟交互的带情感语音合成方法、系统及设备和介质

[0001]本申请涉及人工智能的语音合成领域，特别涉及一种用于虚拟交互的带情感语音合成方法及其系统
。

技术介绍

[0002]当前，语音合成技术多基于文本，利用神经网络提取文本中蕴含的高层隐藏特征合成语音，如
Tacotron
系列，
Tacotron
模型和
Tacotron2
模型可直接根据输入的文本信息生成梅尔频谱，模型可以自己学习到声学特征要素，不需要设计额外的模块，然后用梅尔频谱作为声码器的输入重构语音信号
。
但这两个模型的组件中均使用了循环神经网络，模型无法并行训练和推理，导致该系列算法训练速度慢
、
实时性差
。Transformer TTS
模型将
Transformer
中的
Multi
‑
Head Attention
机制来代替
Tacotron2
的循环神经网络结构，解决了循环神经网络远程依赖问题，也提高了模型训练和推理能力，但该模型在合成阶段，生成语音帧的速度较慢，无法满足实时性要求
。
为了解决这个问题，
Fastspeech
和
Fastspeech2
模型，摒弃了连接编码器和解码器的
Attention
机制模块，增加了时长调节器
(Length Regulator)
和时长预测器
>(Duration Predictor)
，实现了音素和梅尔频谱的显性对齐
。
尽管
Fastspeech2
模型在速度上有了长足的进步，但合成的语音缺乏一定的情感，较为平淡，在虚拟形象交互过程中无法令用户产生亲切感
。
为了解决这个问题，当前算法在合成语音中会加入情感类别，即模型输入不仅包含文本还包含情感类别，引导模型在合成中加入情感
。
但这种方法输入的情感类别多依赖大语言模型对文本进行情感分类，分类的颗粒度较粗，无法体现较为细腻的情感
。
[0003]现有技术中语音合成算法在合成时没有假如情感特征，导致合成的语音无法根据文本表现出相应情感，这在虚拟形象智能交互中会显著降低用户的使用体验，而少数在语音合成中嵌入情感特征的算法多是采用预训练语言模型针对文本进行分类，得到情感类别后作为输入送入模型中进行计算
。
但这种方法得到情感特征相对粗糙，对于同一种情感，缺乏情感强烈程度的划分，也缺乏整句文本情感变化的特征，不够细腻
。
[0004]因此，亟需提出一种虚拟交互的带情感语音合成方法及其系统，以解决虚拟形象交互过程中，合成的语音缺乏情感或者情感不够细腻的问题，实现在虚拟形象交互场景下的语音合成中引入虚拟形象图像，使得合成的语音包含更加细腻的情感，以提升使用者的体验，提升虚拟形象交互的智能性
。

技术实现思路

[0005]本申请实施例提供了一种用于虚拟交互的带情感语音合成方法及其系统，解决现有技术中存在的虚拟形象交互过程中，合成的语音缺乏情感或者情感不够细腻的问题
。
[0006]第一方面，本申请实施例提供了一种用于虚拟交互的带情感语音合成方法，方法包括：
[0007]音素序列处理步骤：将待合成文本转换为音素序列，将音素序列分别输入一音素
编码器和一位置编码器中处理，将音素编码器和位置编码器的特征序列输出相加后送入编码器中进行编码，提取高维隐藏特征；
[0008]虚拟形象视频处理步骤：将合成语音所需文本对应的虚拟形象视频流输入一虚拟形象编码器中处理，获取详细情感信息特征；
[0009]情感合成步骤：将编码器和虚拟形象编码器的输出分别输入一方差适应器中进行合成计算，获得音素时长
、
音调
、
能量和情感的预测信息，并添加到音素隐藏序列中，输出嵌入情感特征的音素编码序列；
[0010]最终语音合成步骤：将方差适应器和位置编码器的输出相加输入到解码器中进行计算后，输入声学模型中得到最终的带情感的合成语音
。
[0011]本专利技术实施例中，上述音素序列处理步骤还包括：
[0012]位置编码步骤：采用位置编码器对编码器和解码器的输入序列分别加上位置编码，实现字符序列的位置发生改变时，注意力机制
Attention
的计算结果发生改变；
[0013]音素编码步骤：将所需汉字预转换为音素信息后，输入音素编码器中进行处理，实现将音素信息映射到高层隐藏特征空间；
[0014]合成编码步骤：采用
Self
‑
Attention
机制，对位置编码器和音素编码器的输出进行合成计算，得到的计算结果经过一次残差和归一化处理，再经过一维卷积网络融合上下文信息后，再进行二次残差和归一化处理
。
[0015]本专利技术实施例中，上述虚拟形象视频处理步骤还包括：
[0016]虚拟形象编码步骤：采用虚拟形象编码器，对输入的每一帧虚拟形象进行卷积计算，提取详细情感信息特征，利用一拼接网络，将情感信息特征进行拼接，生成虚拟形象编码
。
[0017]本专利技术实施例中，上述情感合成步骤还包括：
[0018]方差适应步骤：方差适应器包括：时长预测器
、
音高预测器
、
能量预测器和情感预测器，通过时长预测器
、
音高预测器
、
能量预测器和情感预测器分别对音素时长
、
音调
、
能量和情感信息进行预测输出，并将所有的预测输出进行相加
。
[0019]本专利技术实施例中，上述方差适应步骤还包括：
[0020]时长预测步骤：采用时长预测器对一个文本对应的语音长度进行带情感预测；
[0021]音高预测步骤：输入时长预测器的输出，并采用音高预测器对影响韵律的音调高度进行带情感预测；
[0022]能量预测步骤：输入时长预测器的输出，采用能量预测器对影响音频的音量的频谱幅度进行带情感预测；
[0023]情感预测步骤：输入时长预测器
、
音高预测器和能量预测器的输出及虚拟形象编码，采用情感预测器预测情感，生成一个表达情感特征的特征序列，实现细腻情感嵌入音素序列中
。
[0024]本专利技术实施例中，上述编码器包括多个
FFT
模块，
FFT
模块进一步包括：
[0025]多头注意力机制模块：用于将音素序列的每个单元都与包括自身在内的所有单元进行
Attention
计算，获取每个字符序列的上下文信息，并与整个音素序列中的所有单元建立直接依赖关系；
[0026]一次残差和归一化模块：用于将
Attention本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种用于虚拟交互的带情感语音合成方法，其特征在于，所述方法包括：音素序列处理步骤：将待合成文本转换为音素序列，将所述音素序列分别输入一音素编码器和一位置编码器中处理，将所述音素编码器和所述位置编码器的特征序列输出相加后送入编码器中进行编码，提取高维隐藏特征；虚拟形象视频处理步骤：将合成语音所需文本对应的虚拟形象视频流输入一虚拟形象编码器中处理，获取详细情感信息特征；情感合成步骤：将所述编码器和所述虚拟形象编码器的输出分别输入一方差适应器中进行合成计算，获得音素时长
、
音调
、
能量和情感的预测信息，并添加到音素隐藏序列中，输出嵌入情感特征的音素编码序列；最终语音合成步骤：将所述方差适应器和所述位置编码器的输出相加输入到解码器中进行计算后，输入声学模型中得到最终的带情感的合成语音
。2.
根据权利要求1所述用于虚拟交互的带情感语音合成方法，其特征在于，所述音素序列处理步骤还包括：位置编码步骤：采用所述位置编码器对所述编码器和所述解码器的输入序列分别加上位置编码，实现字符序列的位置发生改变时，注意力机制
At t ention
的计算结果发生改变；音素编码步骤：将所需汉字预转换为音素信息后，输入所述音素编码器中进行处理，实现将所述音素信息映射到高层隐藏特征空间；合成编码步骤：采用
Self
‑
At t ention
机制，对所述位置编码器和所述音素编码器的输出进行合成计算，得到的计算结果经过一次残差和归一化处理，再经过一维卷积网络融合上下文信息后，再进行二次残差和归一化处理
。3.
根据权利要求1所述用于虚拟交互的带情感语音合成方法，其特征在于，所述虚拟形象视频处理步骤还包括：虚拟形象编码步骤：采用所述虚拟形象编码器，对输入的每一帧虚拟形象进行卷积计算，提取详细情感信息特征，利用一拼接网络，将所述情感信息特征进行拼接，生成虚拟形象编码
。4.
根据权利要求3所述用于虚拟交互的带情感语音合成方法，其特征在于，所述情感合成步骤还包括：方差适应步骤：所述方差适应器包括：时长预测器
、
音高预测器
、
能量预测器和情感预测器，通过所述时长预测器
、
音高预测器
、
能量预测器和情感预测器分别对音素时长
、
音调
、
能量和情感信息进行预测输出，并将所有的预测输出进行相加
。5.
根据权利要求4所述用于虚拟交互的带情感语音合成方法，其特征在于，所述方差适应步骤还包括：时长预测步骤：采用所述时长预测器对一个文本对应的语音长度进行带情感预测；音高预测步骤：输入所述时长预测器的输出，并采用所述音高预测器对影响韵律的音调高度进行带情感预测；能量预测步骤：输入所述时长预测器的输出，采用所述能量预测器对影响音频的音量的频谱幅度进行带情感预测；情感预测步骤：输入所述时长预测器
、
音...

【专利技术属性】
技术研发人员：袁枫，阎志远，戴琳琳，景辉，王明哲，单杏花，李超，高志强，王心雨，随玉腾，李阳，衣帅，朱宇豪，李贝贝，吕占民，李杨，苗凡，李江涛，
申请(专利权)人：中国铁道科学研究院集团有限公司电子计算技术研究所北京经纬信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人