语音识别模型的训练方法、语音识别方法和系统技术方案

技术编号:31928586 阅读:32 留言:0更新日期:2022-01-15 13:16
本发明专利技术实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。识别模型的准确率。识别模型的准确率。

【技术实现步骤摘要】
语音识别模型的训练方法、语音识别方法和系统


[0001]本申请涉及语音识别
,尤其涉及一种语音识别模型的训练方法、语音识别方法和系统。

技术介绍

[0002]基于Transducer的语音识别模型在国内外获得了广泛的应用,其典型特点是能够直接适配流式语音识别任务。其虽然引入了语言预测器,但是其语言建模能力不足,经研究发现,语言预测器在真实推理中并没有起到类似语言模型的作用,而更多的承担了消除重复标签的功能,其建模语言之间依赖关系的能力还有进一步提升的空间。

技术实现思路

[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本专利技术实施例提供一种语音识别模型的训练方法、语音识别方法、语音识别系统、电子设备和计算机可读存储介质。
[0004]第一方面,本专利技术实施例提供了一种语音识别模型的训练方法,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。
[0005]在可选的实施例中,据所述第一损失函数和所述第二损失函数进行迭代优化包括:根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。
[0006]在可选的实施例中,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。
[0007]在可选的实施例中,所述方法还包括根据下式确定第三损失函数:其中,L表示第三损失函数,表示第一损失函数,表示第二损失函数,表示预设的权重。
[0008]在可选的实施例中,将音频训练样本输入所述声学编码器,以对所述音频训练样
本进行编码表示包括:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。
[0009]第二方面,本专利技术实施例提供了一种语音识别方法,所述方法应用于上述实施例所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
[0010]在可选的实施例中,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:计算所述第一概率和所述第二概率的加权和;将最大的所述加权和作为所述待识别音频对应的文本内容。
[0011]在可选的实施例中,所述方法还包括根据下式确定待识别音频对应的文本内容:其中,Token表示待识别音频对应的文本内容,表示第一概率,表示第二概率,表示文本融合权重,表示t时刻的声学编码状态向量,表示预设的词表中第u个标签。
[0012]在可选的实施例中,将待识别音频输入所述声学编码器进行编码表示包括:将待识别音频输入所述声学编码器获取所述待识别音频的声学特征,并对所述音频训练样本的声学特征进行编码表示。
[0013]第三方面,本专利技术实施例还提供了一种语音识别系统,所述语音识别系统包括声学编码器、语言预测器、文本映射层和联合网络;其中,所述声学编码器用于对待识别音频进行编码表示,确定所述待识别音频的声学编码状态向量;所述语言预测器用于确定预设的词表中每一标签的文本预测向量;所述文本映射层用于将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;所述联合网络用于根据所述文本预测向量和所述声学编码状态向量确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;并根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。
[0014]第四方面,本专利技术实施例还提供了一种电子设备,包括处理器、通信接口、存储器
和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使得所述处理器执行本专利技术实施例的语音识别模型训练方法或语音识别方法。
[0015]第五方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例的语音识别模型训练方法或语音识别方法。
[0016]上述实施例中的一个或多个技术方案至少具有如下优点的部分或全部:本专利技术实施例的语音识别模型加入了文本映射层,并对语音识别模型的训练过程和预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1示意性地示出了本专利技术实施例的语音识别模型训练方法的主要步骤的流程图;图2示意性地示出了本专利技术实施例的语音识别模型训练方法得到的语音识别模型的结构图;图3示意性地示出了本专利技术实施例的语音识别方法的主要步骤的流程图;图4示意性地示出了适用于本专利技术实施例的语音识别模型训练方法或语音识别方法的系统架构;图5示意性示出了本专利技术实施例提供的电子设备的结构框图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]基于Transducer语音识别模型在国内外获得了广泛的应用。该模型通常包含三部分,分别是声学编码器,语言预测器和联合网络。声学编码器负责将输入声学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。2.根据权利要求1所述的方法,其特征在于,据所述第一损失函数和所述第二损失函数进行迭代优化包括:根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。3.根据权利要求2所述的方法,其特征在于,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括根据下式确定第三损失函数:其中,L表示第三损失函数,表示第一损失函数,表示第二损失函数,表示预设的权重。5.根据权利要求1所述的方法,其特征在于,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。6.一种语音识别方法,其特征在于,所述方法应用于权利要求1

5任一项所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;将所述文本预测向量和所述声...

【专利技术属性】
技术研发人员:陶建华田正坤易江燕
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1