当前位置: 首页 > 专利查询>清华大学专利>正文

语音信号重构方法及装置制造方法及图纸

技术编号:16429325 阅读:209 留言:0更新日期:2017-10-22 02:05
本发明专利技术提供一种语音信号重构方法及装置,其中,方法包括:获取样本语音信号并转换成log域频谱;利用预先训练的内容因子提取模型提取每一帧样本语音信号的内容因子,利用预先训练的说话人因子提取模型提取每一帧样本语音信号的说话人因子;基于该内容因子和说话人因子,训练内容谱重构模型和声纹谱重构模型;将目标语音信号输入声纹谱重构模型,获得目标语音信号中的声纹谱,以及将目标语音信号输入内容谱重构模型,获得目标语音信号中的内容谱;将内容谱和声纹谱相加,获得目标语音信号重构后的log域频谱。本发明专利技术能够基于内容和说话人对语音信号进行分解重构,与任务具有更强的相关性,重构效率高,重构后的语音信号与原语音信号比较相近。

Speech signal reconstruction method and device

The invention provides a device and includes a speech signal reconstruction method, the methods: to obtain the sample speech signals are converted into log domain spectrum; extracting model extraction factor of content of each frame of speech signal samples using content factor pre training, the use of pre trained speaker factor extraction model to extract the speaker factor of each frame of speech samples signal; the content factor and speaker factor based on the training content of spectrum reconstruction model and pattern spectrum reconstruction model; the target speech signal input voice spectrum reconstruction model, obtain the target voice in speech signal spectrum, and the target speech signal input spectrum reconstruction model, obtain the target speech signal in the spectral content; content spectrum analysis and spectrum lines together, log domain speech signal spectrum was obtained after reconstruction. The method can decompose and reconstruct the speech signal based on the content and the speaker, and has stronger correlation with the task, and the reconstruction efficiency is high, and the reconstructed speech signal is similar to the original speech signal.

【技术实现步骤摘要】
语音信号重构方法及装置
本专利技术涉及语音信号处理
,尤其涉及一种语音信号重构方法及装置。
技术介绍
语音信号的重构通常是指在发送端对语音信号进行分析,提取出语音信号的特征参量加以编码和加密,以取得和信道的匹配,经信息通道传递到接收端,接收端根据收到的特征参量恢复(重构)原始语音波形。但是,现有语音信号重构的方法一般是基于源-滤波器(Source-Filter)模型,将语音信号x(t)分解成声门激励e(t)和声道调制h(t)两部分,写成卷积形式如下:x(t)=x(t)×e(t)。这一基础分解方式是很多语音信号处理技术的基础,如语音编码中的参数编码器,语音合成中的声码器等。现有技术中还没有基于内容和说话人对语音信号进行分解重构的方法。鉴于此,如何提供一种能够基于内容和说话人对语音信号进行分解重构的方法及装置成为目前需要解决的技术问题。
技术实现思路
为解决上述的技术问题,本专利技术实施例提供一种语音信号重构方法及装置,能够基于内容和说话人实现对语音信号的分解重构,与任务具有更强的相关性,重构效率高,重构后的语音信号与原语音信号比较相近。第一方面,本专利技术实施例提供一种语音信号重构方法,包括:获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。可选地,将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱,包括:获取目标语音信号,将所述目标语音信号转换成log域频谱;基于所述目标语音信号的log域频谱,利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子,以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子;利用所述内容谱重构模型,将每一帧目标语音信号的内容因子重构成内容谱,以及利用所述声纹谱重构模型,将每一帧目标语音信号的说话人因子重构成声纹谱。可选地,所述将所述样本语音信号转换成log域频谱,包括:将所述样本语音信号进行傅立叶变换,获得所述样本语音信号的log域频谱;相应地,所述将所述目标语音信号转换成log域频谱,包括:将所述目标语音信号进行傅立叶变换,获得所述目标语音信号的log域频谱。可选地,在基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子之前,所述方法还包括:对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,以及对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。可选地,所述对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,包括:基于Fisher准则,对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化;相应地,所述对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化,包括:基于Fisher准则,对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。可选地,所述对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,包括:基于交叉熵,对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化;相应地,所述对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化,包括:基于交叉熵,对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。可选地,所述说话人因子提取模型、所述内容因子提取模型、所述声纹谱重构模型和所述内容谱重构模型均是基于深度神经网络来实现的。第二方面,本专利技术实施例提供一种语音信号重构装置,包括:转换模块,用于获取样本语音信号,将所述样本语音信号转换成log域频谱;提取模块,用于利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;第一训练模块,用于基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;重构模块,用于将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;合成模块,用于将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。第三方面,本专利技术实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;其中,所述处理器,存储器通过所述总线完成相互间的通信;所述处理器执行所述计算机程序时实现上述方法。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法。由上述技术方案可知,本专利技术实施例的语音信号重构方法及装置,通过获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱,由此,能够基于内容和说话人实现对语音信号的分解重构,与任务具有更强的相关性,重构效率高,重构后的语音信号与原语音信号比较相近。附图说明图1为本专利技术一实施例提供的一种语音信号重构方法的流程示意图;图2为本专利技术一实施例提供的一种语音信号重构装置的结构示意图;图3为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本专利技术保护的范围。图1示出了本专利技术一实施例提供的语音信号重构方法的流程示意图,本文档来自技高网...
语音信号重构方法及装置

【技术保护点】
一种语音信号重构方法,其特征在于,包括:获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。

【技术特征摘要】
1.一种语音信号重构方法,其特征在于,包括:获取样本语音信号,将所述样本语音信号转换成log域频谱;基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子;基于所提取的内容因子和说话人因子,训练得到用于将内容因子重构成内容谱的内容谱重构模型和用于将说话人因子重构成声纹谱的声纹谱重构模型;将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱;将所述内容谱和所述声纹谱相加,获得所述目标语音信号重构后的log域频谱。2.根据权利要求1所述的方法,其特征在于,将目标语音信号输入所述声纹谱重构模型,获得所述目标语音信号中的声纹谱,以及将目标语音信号输入所述内容谱重构模型,获得所述目标语音信号中的内容谱,包括:获取目标语音信号,将所述目标语音信号转换成log域频谱;基于所述目标语音信号的log域频谱,利用预先训练的内容因子提取模型提取每一帧目标语音信号的内容因子,以及利用预先训练的说话人因子提取模型提取每一帧目标语音信号的说话人因子;利用所述内容谱重构模型,将每一帧目标语音信号的内容因子重构成内容谱,以及利用所述声纹谱重构模型,将每一帧目标语音信号的说话人因子重构成声纹谱。3.根据权利要求2所述的方法,其特征在于,所述将所述样本语音信号转换成log域频谱,包括:将所述样本语音信号进行傅立叶变换,获得所述样本语音信号的log域频谱;相应地,所述将所述目标语音信号转换成log域频谱,包括:将所述目标语音信号进行傅立叶变换,获得所述目标语音信号的log域频谱。4.根据权利要求1所述的方法,其特征在于,在基于所述样本语音信号的log域频谱,利用预先训练的内容因子提取模型,提取每一帧样本语音信号的内容因子,以及利用预先训练的说话人因子提取模型,提取每一帧样本语音信号的说话人因子之前,所述方法还包括:对内容因子提取模型进行预先训练,以使所述内容因子提取模型对音素的区分能力最大化,以及对说话人因子提取模型进行预先训练,以使所述说话人因子提取模型对说话人的区分能力最大化。5.根据权利要求4所述的方法,其特征在于,所述对内容因子提取模型进行预先训练,以使所述内容...

【专利技术属性】
技术研发人员:王东李蓝天
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1