PPG特征的输出方法、目标音频的输出方法及装置制造方法及图纸

技术编号：31088362 阅读：47 留言：0更新日期：2021-12-01 12:46

本申请实施例提供了一种PPG特征的输出方法、目标音频的输出方法及装置，所述方法包括：将源音频数据分片输入语音后验图PPG分类网络模型，其中，PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，模块层包括至少两个串联的模块，模块中设置单向长短期记忆功能LSTM层，单向LSTM层配置为学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在单向LSMT中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据；根据当前片源音频数据和第一缓存区域以及第二缓存区域中保存的数据，输出当前片源音频数据对应PPG特征。应PPG特征。应PPG特征。

全部详细技术资料下载

【技术实现步骤摘要】
PPG特征的输出方法、目标音频的输出方法及装置

[0001]本申请涉及数据处理
，具体而言，涉及一种PPG特征的输出方法、目标音频的输出方法及装置。

技术介绍

[0002]语音转换技术是：将A说话人(源说话人)的语音转换成B说话人(目标说话人)的声音。语音转换是语音信号处理的一个研究分支，它涵盖了说话人识别、语音识别及语音合成等领域的内容，拟在保留原有的语义信息不变的情况下改变语音的个性化信息，使特定说话人(即源说话人)的语音听起来像另一个特定说话人(即目标说话人)的语音。
[0003]语音转换在实现过程中，其中最核心的任务就是提取原始说话人音频的文本信息、韵律信息，本质上就是剔除音频特征中的音色信息，即Phonetic posteriorgrams(PPG)特征。。
[0004]目前提取PPG特征方法：
[0005]一、使用与说话者无关的自动语音识别(SI
‑
ASR)系统来提取PPG：首先需要训练一个自动语音识别(Automatic Speech Recognition，简称...

【技术保护点】

【技术特征摘要】
1.一种语音后验图PPG特征的输出方法，其特征在于，包括：将源音频数据分片输入语音后验图PPG分类网络模型，其中，所述PPG分类网络模型包括依次连接的抽象映射层、模块层和PPG层，所述模块层包括至少两个串联的模块，每个所述模块中设置单向长短期记忆功能LSTM层，所述单向LSTM层配置为学习特征之间的全局依赖信息；通过第一缓存区域保留上一片源音频数据在所述单向LSMT层中的状态数据，通过第二缓存区域保留上一片源音频数据的后面n帧数据，其中，一片所述源音频数据包括m帧数据，1＜n＜m；根据当前片源音频数据和所述第一缓存区域以及所述第二缓存区域中保存的数据，输出所述当前片源音频数据对应PPG特征，其中，所述PPG特征用于指示每一帧源音频对应的音素标签，所述PPG特征包含所述源音频的文本信息和韵律信息。2.根据权利要求1所述的方法，其特征在于，在将源音频输入语音后验图PPG分类网络模型之前，所述方法还包括：建立所述PPG分类网络模型；通过训练样本训练所述PPG分类网络模型，其中，所述训练样本包括样本音频特征和所述样本音频特征对应的样本音素标签。3.根据权利要求2所述的方法，其特征在于，通过第一训练数据训练所述PPG分类网络模型之前，所述方法还包括：获取训练语料，其中，所述训练语料包括训练音频和所述训练音频对应的训练文本；将所述训练音频转换为训练音频特征，并将所述训练文本转换为训练音素；根据所述训练音频和所述训练文本的对齐关系，以及所述训练音素的时长信息，确定每一帧所述训练音频特征对应的单音素标签和三音素标签，其中，所述单音素标签用于标识所述训练音素的单音素类别，所述三音素标签用于标识所述训练音素的三音素类别；将所述训练音频特征确定为所述训练样本的样本音频特征，将所述单音素标签和所述三音素标签确定为所述训练样本的样本音素标签。4.根据权利要求2所述的方法，其特征在于，所述通过训练样本训练所述PPG分类网络模型，包括：将所述样本音频特征输入所述抽象映射层，进行第一步抽象映射；通过所述模块对单个所述训练样本的每一层样本音频特征在通道方向上做归一化，然后通过所述抽象映射层进行第二步抽象映射；通过所述模块的单向LSTM层，采用线性序列结构不断从前往后收集输入的所述样本音频特征的信息，提取所述样本音频特征之间的全局依赖信息；通过所述模块的卷积层，提取所述样本音频特征之间的局部依赖信息；整合所述全局依赖信息和所述局部依赖信息，并对所述样本音频特征做第三步抽象映射；根据所述样本音素标签对应的单音素类别的总数，通过所述PPG层的单音素层对经过第三步抽象映射输出特征进行分类，得到第一PPG特征，其中，所述第一PPG特征的维度与所述单音素类别的总数一致，所述第一PPG特征的每一维用于指示一种单音素类别的概率；根据所述样本音素标签对应的三音素类别的总数，通过所述PPG层的三音素层对经过
第三步抽象映射输出特征进行分类，得到第二PPG特征，其中，所述第二PPG特征的维度与所述三音素类别的总数一致，所述第二PPG特征的每一维用于指示一种三音素类别的概率；将所述样本音频特征作为输入，将所述第一PPG特征和所述第二PPG特征作为输出，通过反向传播将所述PPG分类网络模型训练...

【专利技术属性】
技术研发人员：司马华鹏，龚雪飞，毛志强，
申请(专利权)人：宿迁硅基智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人