一种提取语音特征的方法、装置、终端及存储介质制造方法及图纸

技术编号:28379766 阅读:23 留言:0更新日期:2021-05-08 00:07
本申请适用于计算机技术领域,提供了一种提取语音特征的方法、装置、终端及存储介质,包括:获取待处理的语音数据;将该语音数据输入到已训练的语音特征提取模型中进行处理,得到该语音数据对应的目标语音特征。上述方式中的语音特征提取模型是基于自监督学习,以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的。基于该语音特征提取模型可以提取到有效地、信息丰富、表达准确的目标语音特征,进而使该目标语音特征应用于智能语音任务处理场景时,处理结果更准确。

【技术实现步骤摘要】
一种提取语音特征的方法、装置、终端及存储介质
本申请属于计算机
,尤其涉及一种提取语音特征的方法、装置、终端及存储介质。
技术介绍
智能语音技术作为人工智能重要的组成部分,其应用通过标注大量的有监督数据,重新训练语音模型或者在原始语音模型上进行优化,其过程会消耗大量的人力、经济以及时间。且可直接作为训练样本的带标注的语音数据很少,不利于语音模型的训练。因此,无监督的语音特征提取方法应用而生。然而,由于语音数据的复杂性和多变性,现有的基于无监督学习训练得到的语音模型很难学习到语音数据的有效特征,导致使用该语音模型提取到的语音特征不准确。
技术实现思路
有鉴于此,本申请实施例提供了一种提取语音特征的方法、装置、终端及存储介质,以解决现有的基于无监督学习训练得到的语音模型很难学习到语音数据的有效特征,导致使用该语音模型提取到的语音特征不准确的问题。本申请实施例的第一方面提供了一种提取语音特征的方法,包括:获取待处理的语音数据;将所述语音数据输入到已训练的语音特征提取模型中进行处理,得到所述语音数据对应的目标语音特征,所述语音特征提取模型是基于自监督学习,以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的,所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。本申请实施例的第二方面提供了一种提取语音特征的装置,包括:获取单元,用于获取待处理的语音数据;处理单元,用于将所述语音数据输入到已训练的语音特征提取模型中进行处理,得到所述语音数据对应的目标语音特征,所述语音特征提取模型是基于自监督学习,以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的,所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。本申请实施例的第三方面提供了一种提取语音特征的终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面所述的提取语音特征的方法的步骤。本申请实施例的第四方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的提取语音特征的方法的步骤。本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在提取语音特征的终端上运行时,使得提取语音特征的终端执行上述第一方面所述的提取语音特征的方法的步骤。本申请实施例提供的一种提取语音特征的方法、提取语音特征的装置、提取语音特征的终端及存储介质,具有以下有益效果:本申请实施例,语音特征提取模型是以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,基于自监督学习对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的,且每个样本语音数据对中的增强语音数据是对原始语音数据进行数据增强处理得到的。这样训练得到的语言特征提取模型学习到了,从增强语音数据中提取到原始语音数据对应的语音特征的能力,可以理解为从失真语音数据中提取到未失真语音数据对应的语音特征的能力,也学习到了如何提取有效地语音特征,使得该语言特征提取模型在实际使用过程中,可提取到有效地、信息丰富、表达准确的目标语音特征。进而使该目标语音特征应用于智能语音任务处理场景时,处理结果更准确。且该语言特征提取模型在训练过程中,可根据原始语音数据生成增强语音数据,一方面扩大了样本语音数据的数量,一方面不需要人工去提供样本语音数据,节省了大量的人力、经济、时间。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种提取语音特征的方法的示意流程图;图2是本专利技术另一实施例提供的一种提取语音特征的方法的示意流程图;图3是本专利技术提供的语音特征提取模型结构的示意图;图4是本专利技术又一实施例提供的一种提取语音特征的方法的示意流程图;图5是本申请一实施例提供的一种提取语音特征的装置的示意图;图6是本申请另一实施例提供的一种提取语音特征的终端的示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。智能语音技术作为人工智能重要的组成部分,其应用通过标注大量的有监督数据,重新训练语音模型或者在原始语音模型上进行优化,其过程会消耗大量的人力、经济以及时间。且可直接作为训练样本的带标注的语音数据很少,不利于语音模型的训练。因此,无监督的语音特征提取方法应用而生。然而,专利技术人意识到,由于语音数据的复杂性和多变性,现有的基于无监督学习训练得到的语音模型很难学习到语音数据的有效特征,导致使用该语音模型提取到的语音特征不准确。有鉴于此,本申请提供了一种提取语音特征的方法,该方法中,语音特征提取模型是以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,基于自监督学习对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的,且每个样本语音数据对中的增强语音数据是对原始语音数据进行数据增强处理得到的。这样训练得到的语言特征提取模型学习到了,从增强语音数据中提取到原始语音数据对应的语音特征的能力,可以理解为从失真语音数据中提取到未失真语音数据对应的语音特征的能力,也学习到了如何提取有效地语音特征,使得该语言特征提取模型在实际使用过程中,可提取到有效地、信息丰富、表达准确的目标语音特征。进而使该目标语音特征应用于智能语音任务处理场景时,处理结果更准确。且该语言特征提取模型在训练过程中,可根据原始语音数据生成增强语音数据,一方面扩大了样本语音数据的数量,一方面不需要人工去提供样本语音数据,节省了大量的人力、经济、时间。请参见图1,图1是本申请实施例提供的一种提取语音特征的方法的示意流程图。本实施例中提取语音特征的方法的执行主体为终端、服务器等,其中,终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(PersonalDigitalAssistant,PDA)等移动终端,还可以包括台式电脑等终端。本实施例中以执行主体为终端为例进行说明,如图1所示的提取语音特征的方法可包括S101~S102,具体如下:S101:获取待处理的语音数据。待处理的语音数据即为需要进行语音特征提取的语音数据。提取到的语音特征可应用于不同的智能语音任务处理场景中。例如,提取到的语音特征可以应用到语音识别、说话人身份识别、语种识别、语音翻译、同声本文档来自技高网...

【技术保护点】
1.一种提取语音特征的方法,其特征在于,包括:/n获取待处理的语音数据;/n将所述语音数据输入到已训练的语音特征提取模型中进行处理,得到所述语音数据对应的目标语音特征,所述语音特征提取模型是基于自监督学习,以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的,所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。/n

【技术特征摘要】
1.一种提取语音特征的方法,其特征在于,包括:
获取待处理的语音数据;
将所述语音数据输入到已训练的语音特征提取模型中进行处理,得到所述语音数据对应的目标语音特征,所述语音特征提取模型是基于自监督学习,以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标,对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的,所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。


2.如权利要求1所述的方法,其特征在于,所述语音特征提取模型包括卷积滤波器、卷积编码器以及准循环神经网络,所述将所述语音数据输入到已训练的语音特征提取模型中进行处理,得到所述语音数据对应的目标语音特征,包括:
将所述语音数据输入到所述卷积滤波器中进行处理,得到所述语音数据对应的第一语音特征,所述第一语音特征包括频率特征;
通过所述卷积编码器对所述第一语音特征进行卷积处理,得到第二语音特征,所述第二语音特征包括MFCC特征和Fbank特征;
将所述第二语音特征输入到所述准循环神经网络中进行处理,得到所述目标语音特征,所述目标语音特征包括目标波形特征、目标对数功谱率特征、目标频谱特征、目标滤波器组特性、目标伽马特征以及目标韵律特征。


3.如权利要求2所述的方法,其特征在于,所述通过所述卷积编码器对所述第一语音特征进行卷积处理,得到第二语音特征之后,所述方法还包括:
基于所述准循环神经网络提取所述第二语音特征对应的第三语音特征;
采用跳跃连接的方式将所述第二语音特征与所述第三语音特征结合,得到所述目标语音特征。


4.如权利要求1至3任一项所述的方法,其特征在于,所述获取待处理的语音数据之前,所述方法还包括:
将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理,得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征;
针对每个样本语音数据对,根据预设的损失函数计算所述样本语音数据对中的原始语音数据对应的样本语音特征,与所述样本语音数据对中的增强语音数据...

【专利技术属性】
技术研发人员:张之勇王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1