【技术实现步骤摘要】
语音转换与模型训练方法、装置和系统及存储介质
本专利技术涉及语音信号处理
,具体地,涉及一种语音转换方法、装置和系统及存储介质与一种模型训练方法、装置和系统及存储介质。
技术介绍
在语音信号处理领域中,语音转换(即语音音色转换)技术是当前比较重要的一个研究方向。语音转换旨在修改任意说话者的音色,将其转换为某一固定说话者的音色,同时说话内容保持不变。语音转换涉及到前端信号处理、语音识别和语音合成技术。目前语音转换技术主要使用前端信号处理后的单通道数据,作为提取识别声学特征和合成声学特征的语音数据,进行语音转换所涉及的网络模型的训练,进而实现整个语音转换系统。现有的基于单通道数据的语音转换技术具有以下缺点:在环境比较嘈杂的时候,会出现严重的识别不准现象,错误类型可以包括音错、字错等。例如,源语音为“我爱北京天安门”,转换后的目标语音为“我ai(一声)北京天安门”,这种是音错。还有可能发生字错,例如将上述源语音转换为目标语音“我爱北京天啊门”。这些错误直接导致最后转换获得的目标语音听感很差。
技术实现思路
>为了至少部分地解决本文档来自技高网...
【技术保护点】
1.一种语音转换方法,包括:/n获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数;/n分别对所述N组源语音数据中的每组源语音数据进行特征提取,以获得N组源识别声学特征;/n对所述N组源识别声学特征进行特征合并,以获得所述源说话者的声学特征;/n通过预定映射模型将所述源说话者的声学特征映射为目标说话者的声学特征;/n基于所述目标说话者的声学特征进行语音合成,以获得所述目标说话者的目标语音。/n
【技术特征摘要】 【专利技术属性】
1.一种语音转换方法,包括:
获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数;
分别对所述N组源语音数据中的每组源语音数据进行特征提取,以获得N组源识别声学特征;
对所述N组源识别声学特征进行特征合并,以获得所述源说话者的声学特征;
通过预定映射模型将所述源说话者的声学特征映射为目标说话者的声学特征;
基于所述目标说话者的声学特征进行语音合成,以获得所述目标说话者的目标语音。
2.根据权利要求1所述的语音转换方法,其中,所述获取源说话者分别在N个不同通道下的N组源语音数据包括:
获取麦克风阵列采集的所述源说话者的所述N组源语音数据,所述麦克风阵列包括与所述N个不同通道一一对应的N个布置方位不同的麦克风。
3.根据权利要求1所述的语音转换方法,其中,所述获取源说话者分别在N个不同通道下的N组源语音数据包括:
获取M个麦克风采集的所述源说话者的M组初始源语音数据,其中,M为大于或等于1的整数;以及
对所述M组初始源语音数据进行M通道至N通道的通道变换操作,以获得所述N组源语音数据。
4.一种模型训练方法,包括:
获取样本说话者的第一训练语音数据以及目标说话者的第二训练语音数据;
对所述第一训练语音数据进行单通道至N通道的通道变换操作,以获得分别在N个不同通道下的N组样本语音数据,其中,N为大于1的整数;
分别对所述N组样本语音数据中的每组样本语音数据进行特征提取,以获得N组第一识别声学特征;
对所述N组第一识别声学特征进行特征合并,以获得所述样本说话者的识别声学特征;
对所述第二训练语音数据进行单通道至N通道的通道变换操作,以获得分别在所述N个不同通道下的N组目标语音数据;
分别对所述N组目标语音数据中的每组目标语音数据进行特征提取,以获得N组第二合成声学特征;
对所述N组第二合成声学特征进行特征合并,以获得所述目标说话者的合成声学特征;以及
基于所述样本说话者的识别声学特征,通过预定映射模型映射获得预测合成声学特征,并将所述目标说话者的合成声学特征作为所述预测合成声学特征的真实值对所述预定映射模型进行训练,其中,所述预定映射模型用于在对任一源说话者与所述目标说话者进行语音转换的过程中将所述源说话者的声学特征映射为所述目标说话者的声学特征,以由预定合成器基于所述目标说话者的声学特征进行语音合成以获得所述目标说话者的目标语音。
5.一种语音转换装置,包括:
获取模块,用于获取源说话者分别在N个不同通道下的N组源语音数据,其中,N为大于1的整数;
技术研发人员:武剑桃,李秀林,
申请(专利权)人:标贝北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。