The invention provides a device and includes a speech signal reconstruction method, the methods: to obtain the sample speech signals are converted into log domain spectrum; extracting model extraction factor of content of each frame of speech signal samples using content factor pre training, the use of pre trained speaker factor extraction model to extract the speaker factor of each frame of speech samples signal; the content factor and speaker factor based on the training content of spectrum reconstruction model and pattern spectrum reconstruction model; the target speech signal input voice spectrum reconstruction model, obtain the target voice in speech signal spectrum, and the target speech signal input spectrum reconstruction model, obtain the target speech signal in the spectral content; content spectrum analysis and spectrum lines together, log domain speech signal spectrum was obtained after reconstruction. The method can decompose and reconstruct the speech signal based on the content and the speaker, and has stronger correlation with the task, and the reconstruction efficiency is high, and the reconstructed speech signal is similar to the original speech signal.
【技术实现步骤摘要】
语音信号重构方法及装置
本专利技术涉及语音信号处理
,尤其涉及一种语音信号重构方法及装置。
技术介绍
语音信号的重构通常是指在发送端对语音信号进行分析,提取出语音信号的特征参量加以编码和加密,以取得和信道的匹配,经信息通道传递到接收端,接收端根据收到的特征参量恢复(重构)原始语音波形。但是,现有语音信号重构的方法一般是基于源-滤波器(Source-Filter)模型,将语音信号x(t)分解成声门激励e(t)和声道调制h(t)两部分,写成卷积形式如下:x(t)=x(t)×e(t)。这一基础分解方式是很多语音信号处理技术的基础,如语音编码中的参数编码器,语音合成中的声码器等。现有技术中还没有基于内容和说话人对语音信号进行分解重构的方法。鉴于此,如何提供一种能够基于内容和说话人对语音信号进行分解重构的方法及装置成为目前需要解决的技术问题。
技术实现思路
为解决上述的技术问题,本专利技术实施例提供一种语音信号重构方法及装置,能够基于内容和说话人实现对语音信号的分解重构,与任务具有更强的相关性,重构效率高,重构后的语音信号与原语音信号比较相近。第一方面,本专利技术实施例提供一种语音信号重构方法,包括:获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标 ...
【技术保护点】
一种语音信号重构方法,其特征在于,包括:获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。
【技术特征摘要】
1.一种语音信号重构方法,其特征在于,包括:获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。2.根据权利要求1所述的方法,其特征在于,将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱,包括:获取目标语音信号,将所述目标语音信号转换成log域频谱;基于所述目标语音信号的log域频谱,利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子,以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子;利用所述内容谱重构模型,将每一帧目标语音信号的内容因子重构成内容谱,以及利用所述声纹谱重构模型,将每一帧目标语音信号的说话人因子重构成声纹谱。3.根据权利要求2所述的方法,其特征在于,所述将所述样本语音信号转换成log域频谱,包括:将所述样本语音信号进行傅立叶变换,获得所述样本语音信号的log域频谱;相应地,所述将所述目标语音信号转换成log域频谱,包括:将所述目标语音信号进行傅立叶变换,获得所述目标语音信号的log域频谱。4.根据权利要求1所述的方法,其特征在于,在基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子之前,所述方法还包括:对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,以及对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。5.根据权利要求4所述的方法,其特征在于,所述对内容因子提取模型进行预先训练,以使所述内容...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。