一种语音识别方法和装置制造方法及图纸

技术编号:33622384 阅读:11 留言:0更新日期:2022-06-02 00:47
本发明专利技术公开了一种语音识别方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:通过特征提取网络提取无标注的第一音频数据样本对应的预训练特征,基于该预训练特征通过特征映射网络得到第一音频数据样本的音素的归一化权重向量;以归一化权重向量作为第一音频数据样本对应的训练目标以及以有标注的第二音频数据样本的标签作为第二音频数据样本对应的训练目标,训练语音识别模型,利用训练后的语音识别模型进行语音识别。该实施方式能够解决语音识别的数据依赖和语音表征问题,有效利用语音识别产品中无标注音频数据来提高语音识别性能,降低人工标注成本,解决现有技术忽略语音相位信息和对复杂语音特性建模能力存在缺陷的问题。能力存在缺陷的问题。能力存在缺陷的问题。

【技术实现步骤摘要】
一种语音识别方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种语音识别方法和装置。

技术介绍

[0002]语音识别技术旨在解决从语音音频信号到语音文字的转换问题。以语音识别结果为基础,融合自然语言理解、多模态融合等技术,可以实现人机交互的目的。当前语音识别系统通常采用有监督训练方案,即基于人工对采集的音频数据进行标注,根据原始音频数据及特征,以文字标注为最终目标,训练得到语音识别的分类器。目前常用的语音识别技术分为两大类。一类基于隐马尔科夫深度神经网络(HMM

DNN)的hybrid框架,分为声学模型、语言模型两大模块,并采用解码算法在识别过程中通过维特比搜索,得到最优序列,生成解码输出。另一类语音识别算法基于端到端的神经网络设计,通过CTC(Connectionist Temporal Classification,连接时序分类)准则设计优化目标,使得神经网络直接根据原始音频特征输出识别文字结果。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]人工标注成本通常较高,耗费时间较长,且需要对标注质量进行检查,不适合超大规模语音识别的训练;无法有效利用已有语音识别产品中每天产生大量的无标注音频数据;基于MFCC(梅尔倒谱系数)、FBANK(滤波器组特征)等特征的传统语音识别系统忽略了语音相位信息,且基于简化后的滤波器理论提取,对复杂语音特性建模能力仍有一定缺陷。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种语音识别方法和装置,能够解决语音识别在各业务领域和应用场景中的数据依赖和语音表征问题,可有效利用已有语音识别产品中大量的无标注音频数据来提高语音识别的性能,降低人工标注成本,减少标注耗时,提高标注准确性,适用于超大规模语音识别的训练,解决现有技术中忽略语音相位信息和对复杂语音特性建模能力存在缺陷的问题。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种语音识别方法。
[0007]一种语音识别方法,包括:通过特征提取网络提取无标注的第一音频数据样本对应的预训练特征,基于所述第一音频数据样本对应的预训练特征,通过特征映射网络得到所述第一音频数据样本的音素的归一化权重向量,所述归一化权重向量表示所述第一音频数据样本的音素的类别;以所述归一化权重向量作为所述第一音频数据样本对应的训练目标,以及,以有标注的第二音频数据样本的标签作为所述第二音频数据样本对应的训练目标,利用所述第一音频数据样本和所述第二音频数据样本训练语音识别模型,以利用训练后的语音识别模型进行语音识别,其中,所述第二音频数据样本的标签表示所述第二音频数据样本的音素的类别。
[0008]可选地,所述通过特征提取网络提取无标注的第一音频数据样本对应的预训练特征之前,包括:通过所述特征提取网络提取有标注的第三音频数据样本对应的预训练特征;
以所述第三音频数据样本对应的预训练特征为所述特征映射网络的输入,且以所述第三音频数据样本的标签为训练目标,训练所述特征映射网络,所述第三音频数据样本的标签表示所述第三音频数据样本的音素的类别。
[0009]可选地,所述通过所述特征提取网络提取有标注的第三音频数据样本对应的预训练特征之前,包括:利用无标注的第四音频数据样本构造所述特征提取网络的训练样本,其中每多个训练样本组合得到一个训练样本子集合;将所述训练样本子集合输入所述特征提取网络,得到对应所述训练样本子集合中每一训练样本的网络输出结果;对对应各训练样本的网络输出结果进行聚类,得到训练样本与聚类中心的配对组合,并根据所述配对组合更新所述聚类中心;以聚类准则函数作为所述特征提取网络训练时的损失函数,通过反向传播更新所述特征提取网络的网络参数,所述聚类准则函数是根据所述网络输出结果和所述聚类中心构建的。
[0010]可选地,通过如下方式构建所述损失函数:以第i个训练样本的网络输出结果作为第i个目标样本y
i
,以c
k
表示距离目标样本y
i
最近的聚类中心,构建第一关系式为:第i个目标样本y
i
与距离目标样本y
i
最近的聚类中心c
k
之差的绝对值的平方,构建第二关系式为:在i为1至M之间的取值范围内,对各个i的取值对应的所述第一关系式计算加和,其中M为单个所述训练样本子集合中训练样本的数量;以所述第二关系式作为所述损失函数。
[0011]可选地,所述利用无标注的第四音频数据样本构造所述特征提取网络的训练样本,包括:对所述第四音频数据样本进行时频变换,得到所述第四音频数据样本的帧级别语音原始特征,所述帧级别语音原始特征包括所述第四音频数据样本的各帧幅度谱向量和相位谱向量;基于所述帧级别语音原始特征,融合所述幅度谱向量及所述相位谱向量中每帧音频信号的上下文信息,以构造出所述特征提取网络的训练样本。
[0012]可选地,所述基于所述帧级别语音原始特征,融合所述幅度谱向量及所述相位谱向量中每帧音频信号的上下文信息,以构造出所述特征提取网络的训练样本,包括:对于所述帧级别语音原始特征中任意的第t帧语音原始特征,按照预设规则拼接从第t

D帧到第t+D帧的所有帧的幅度谱向量和相位谱向量,得到所述特征提取网络的对应所述第t帧的训练样本,其中D表示预设的上下文的窗口长度。
[0013]根据本专利技术实施例的另一方面,提供了一种语音识别装置。
[0014]一种语音识别装置,包括:归一化权重向量确定模块,用于通过特征提取网络提取无标注的第一音频数据样本对应的预训练特征,基于所述第一音频数据样本对应的预训练特征,通过特征映射网络得到所述第一音频数据样本的音素的归一化权重向量,所述归一化权重向量表示所述第一音频数据样本的音素的类别;语音识别模型训练模块,用于以所述归一化权重向量作为所述第一音频数据样本对应的训练目标,以及,以有标注的第二音频数据样本的标签作为所述第二音频数据样本对应的训练目标,利用所述第一音频数据样本和所述第二音频数据样本训练语音识别模型,以利用训练后的语音识别模型进行语音识别,其中,所述第二音频数据样本的标签表示所述第二音频数据样本的音素的类别。
[0015]可选地,还包括特征映射网络训练模块,用于:通过所述特征提取网络提取有标注的第三音频数据样本对应的预训练特征;以所述第三音频数据样本对应的预训练特征为所述特征映射网络的输入,且以所述第三音频数据样本的标签为训练目标,训练所述特征映射网络,所述第三音频数据样本的标签表示所述第三音频数据样本的音素的类别。
[0016]可选地,还包括特征提取网络训练模块,用于:利用无标注的第四音频数据样本构造所述特征提取网络的训练样本,其中每多个训练样本组合得到一个训练样本子集合;将所述训练样本子集合输入所述特征提取网络,得到对应所述训练样本子集合中每一训练样本的网络输出结果;对对应各训练样本的网络输出结果进行聚类,得到训练样本与聚类中心的配对组合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:通过特征提取网络提取无标注的第一音频数据样本对应的预训练特征,基于所述第一音频数据样本对应的预训练特征,通过特征映射网络得到所述第一音频数据样本的音素的归一化权重向量,所述归一化权重向量表示所述第一音频数据样本的音素的类别;以所述归一化权重向量作为所述第一音频数据样本对应的训练目标,以及,以有标注的第二音频数据样本的标签作为所述第二音频数据样本对应的训练目标,利用所述第一音频数据样本和所述第二音频数据样本训练语音识别模型,以利用训练后的语音识别模型进行语音识别,其中,所述第二音频数据样本的标签表示所述第二音频数据样本的音素的类别。2.根据权利要求1所述的方法,其特征在于,所述通过特征提取网络提取无标注的第一音频数据样本对应的预训练特征之前,包括:通过所述特征提取网络提取有标注的第三音频数据样本对应的预训练特征;以所述第三音频数据样本对应的预训练特征为所述特征映射网络的输入,且以所述第三音频数据样本的标签为训练目标,训练所述特征映射网络,所述第三音频数据样本的标签表示所述第三音频数据样本的音素的类别。3.根据权利要求2所述的方法,其特征在于,所述通过所述特征提取网络提取有标注的第三音频数据样本对应的预训练特征之前,包括:利用无标注的第四音频数据样本构造所述特征提取网络的训练样本,其中每多个训练样本组合得到一个训练样本子集合;将所述训练样本子集合输入所述特征提取网络,得到对应所述训练样本子集合中每一训练样本的网络输出结果;对对应各训练样本的网络输出结果进行聚类,得到训练样本与聚类中心的配对组合,并根据所述配对组合更新所述聚类中心;以聚类准则函数作为所述特征提取网络训练时的损失函数,通过反向传播更新所述特征提取网络的网络参数,所述聚类准则函数是根据所述网络输出结果和所述聚类中心构建的。4.根据权利要求3所述的方法,其特征在于,通过如下方式构建所述损失函数:以第i个训练样本的网络输出结果作为第i个目标样本y
i
,以c
k
表示距离目标样本y
i
最近的聚类中心,构建第一关系式为:第i个目标样本y
i
与距离目标样本y
i
最近的聚类中心c
k
之差的绝对值的平方,构建第二关系式为:在i为1至M之间的取值范围内,对各个i的取值对应的所述第一关系式计算加和,其中M为单个所述训练样本子集合中训练样本的数量;以所述第二关系式作为所述损失函数。5.根据权利要求3所述的方法,其特征在于,所述利用无标注的第四音频数据样本构造所述特征提取网络的训练样本,包括:对所述第四音频数据样本进行时频变换,得到所述第四音频数据样本的帧级别语音原始特征,所述帧级别语音原始特征包括所述第四音频数据样本的各帧幅度谱向量和相位谱向量;基于所述帧级别语音原始特征,融合所述幅度谱向量及所述相位谱向量中每帧音频信号的上下文信息,以构造出所述特征提取网络的训练样本。
6.根据权利要求5所述的方法,其特征在于,所述基于所述帧级别语音原始特征,融合所述幅度谱向量及所述相位谱向量中每帧音频信号的上下文信息,以构造出所述特征提取网络的训练样本,包括:对于所述帧级别语音原始特征中任意的第t帧语音原始特征,按照预设规则拼接从第t

D帧到第t+D帧的所有帧的幅度谱向量和相位谱向量,得到所述特征提取网络的对应所述第t帧的训练样本,其中D表示预设的上下文的窗口长度。7.一种语音识别装置,其特征在于,包括:归一化权重向量确定模块,用于通过特征提取网络提取无标注的第一音频数据样本对应的预训练...

【专利技术属性】
技术研发人员:雪巍范璐丁国宏
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1