一种音频场景分类辅助的语音识别快速自适应方法技术

技术编号:33401745 阅读:22 留言:0更新日期:2022-05-11 23:23
本发明专利技术公开了一种音频场景分类辅助的语音识别快速自适应方法,包括以下步骤:S1、训练得到一个音频场景分类模型,通过所述音频场景分类模型准确地提取输入音频的场景相关特征;S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合,由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。提高语音识别模型的自适应能力。提高语音识别模型的自适应能力。

【技术实现步骤摘要】
一种音频场景分类辅助的语音识别快速自适应方法


[0001]本专利技术涉及语音识别
,具体是涉及一种音频场景分类辅助的语音识别快速自适应方法。

技术介绍

[0002]语音识别(Automatic Speech Recognition,ASR),是将语音转写为文字的技术。语音识别起始于1952年,当时贝尔实验室专利技术世界上第一个能识别10个英文数字语音的系统,到现在经历了70多年的发展,语音识别由实验室走向大众。特别是近20年来,得益于大数据、算力以及算法这三驾马车的驱动,语音识别开始得以广泛应用,如语音输入法、字幕生成、语音助手等功能等,给人们生活带来了极大便利。
[0003]随着语音识别应用场景的增多,在特定场景下快速上线语音识别系统越来越迫切。基于大规模数据训练的通用语音识别模型,一般可能由于训练数据不够全面,未能覆盖某特定场景的训练数据而导致在该特定场景下通用的语音识别模型识别效果不佳,因此不能直接将该通用模型在该场景下进行上线和应用。此时需要收集该场景下的语音数据,并进行模型的定制化工作,以提高该场景下模型的识别准确率。
[0004]一般的模型定制化工作大致可分为以下几个步骤:1)收集特定场景下的语音数据,并对音频进行人工标注。2)使用这些标注好的数据对已经在大规模数据集上训练好的通用的语言识别模型继续进行训练,这个过程被称为微调(fine

tune)。3)对微调后的模型在该特定场景下进行上线及应用。
[0005]使用这种模型定制化的方法可以提高语音识别模型在该场景下的识别率,但同时该方法也存在如下问题:1)由于收集语音数据以及对收集到的语音数据进行人工标注会带来巨大的时间和人力成本,这对一些需要单纯提升自己领域内识别效果的非语音类公司来说往往是难以接受的。2)某些特定场景下的数据往往因为涉及业务机密或者说数据本身就比较稀缺等情况而难以获得,这意味着在微调阶段,可能因为无法获得足够多的数据而难以将模型的识别效果调整到一个适合应用的程度。3)训练通用语音识别模型的数据集音频和文本特征所在的空间称为源域(Source Domain),特定场景下的数据集音频和文本特征所在的空间称为目标域(Target Domain)。在进行微调时,如果只使用目标域的数据进行训练,模型很容易对目标域的数据过拟合,这导致模型在源域数据的测试集上的表现下降严重,也就是说只有特定领域的识别效果变好,但通用模型本身的识别效果却大打折扣,这使得整个定制化工作像是一个跷跷板,一边好了,另一边又差了;而当将一定比例的源域的数据和所有目标域的数据混合在一起共同参与微调时,虽能有效缓解模型在目标域过拟合问题,但又会增加模型微调的时间,无法快速完成整个模型的定制化工作。

技术实现思路

[0006]针对上述
技术介绍
指出的问题,本专利技术提供了一种音频场景分类辅助的语音识别快速自适应的方法。
[0007]为解决上述技术问题,本专利技术的技术方案如下:
[0008]一种音频场景分类辅助的语音识别快速自适应方法,包括以下步骤:
[0009]S1、训练得到一个音频场景分类模型,通过所述音频场景分类模型准确地提取输入音频的场景相关特征;
[0010]S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合,由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。
[0011]说明:将音频场景分类模型与语音识别模型融合,融合后的模型对场景的定制化工作有非常大的帮助,能够仅仅利用少量的目标域训练数据,快速完成语音识别模型在特定场景上的微调工作,即在特定场景下快速自适应的任务。
[0012]进一步地,在上述方案中,所述步骤S1中,所述音频场景分类模型包括:特征提取器、音频编码模块、映射层;
[0013]所述音频编码模块包括卷积降采样层、卷积增强的变压器块(Conformer Blocks)、注意力统计池化层(Attentive Statistic Pooling,ASP);
[0014]所述卷积降采样层是由两层卷积神经网络(Convolutional Neural Network,CNN)模块组成,
[0015]所述卷积增强的变压器块(Conformer Blocks)为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块。
[0016]进一步地,在上述方案中,所述音频场景分类模型提取输入音频的场景相关特征的方法为:
[0017]S1

1、首先通过所述特征提取器提取出80维滤波器组(Filter

bank,Fbank)特征;
[0018]S1

2、通过所述音频编码模块对输入特征进行编码,具体为:
[0019]S1
‑2‑
1、通过所述卷积降采样层的两层卷积神经网络(Convolutional Neural Network,CNN)模块对输入的语音在时间维度降采样为原来的四分之一;
[0020]S1
‑2‑
2、经过若干层卷积增强的变压器块(Conformer Blocks)搭建编码器用来对输入特征进行编码;
[0021]S1
‑2‑
3、经过块(Chunk)级别的注意力统计池化层(Attentive Statistic Pooling,ASP),获得块(Chunk)级别的嵌入向量(Embedding)特征;(即每n个帧为一个块(Chunk),每一个块(Chunk)经过ASP后会得到其对应的向量)
[0022]S1

3、所述嵌入向量(Embedding)特征经过映射层获得该块(Chunk)对应的类别,即获得了输出的分类信息。
[0023]进一步地,在上述方案中,所述音频场景分类模型提取场景分类特征的计算公式为:
[0024]e
ct
=W2(ReLU(W1h
ct
))
ꢀꢀꢀ
(2)
[0025][0026][0027][0028]embedding
c
=[μ
c

c
]ꢀꢀꢀ
(6)
[0029]式中,h
ct
∈R
D
为第c个Chunk的第t帧,其中0≤t≤W,其中W1∈R
D
×
D
,W2∈R
D
×1,D为模型维度,C为Chunk的大小,[:]表示将两个向量按特征维度进行拼接,最后输出的embedding
c
为该Chunk的特征向量,用于最后的分类任务及融合模型向量的嵌入;当Chunk大小为1时,对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,包括以下步骤:S1、训练得到一个音频场景分类模型,通过所述音频场景分类模型准确地提取输入音频的场景相关特征;S2、将音频场景分类模型所提取得到的相关场景特征和语音识别模型的声学特征进行融合,将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容,得到识别准确率更高的融合模型,使得所述语音识别模型在目标域数据上得以快速自适应,提高语音识别模型的自适应能力。2.根据权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述步骤S1中,所述音频场景分类模型包括:特征提取器、音频编码模块、映射层;所述音频编码模块包括卷积降采样层、卷积增强的变压器块、注意力统计池化层;所述卷积降采样层是由两层卷积神经网络模块组成,所述卷积增强的变压器块为多层结构,每一层包括前馈神经网络、多头自注意力模块、卷积模块。3.如权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述音频场景分类模型提取输入音频的场景相关特征的方法为:S1

1、首先通过所述特征提取器提取出80维滤波器组特征;S1

2、通过所述音频编码模块对输入特征进行编码,具体为:S1
‑2‑
1、通过所述卷积降采样层的两层卷积神经网络模块对输入的语音在时间维度降采样为原来的四分之一;S1
‑2‑
2、经过若干层卷积增强的变压器块搭建编码器用来对输入特征进行编码;S1
‑2‑
3、经过块级别的注意力统计池化层,获得块级别的嵌入向量特征;S1

3、所述嵌入向量特征经过映射层获得该块对应的类别,即获得了输出的分类信息。4.根据权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法,其特征在于,所述音频场景分类模型提取场景分类特征的计算公式为:e
ct
=W2(ReLU(W1h
ct
))
ꢀꢀꢀ
(2)(2)(2)embedding
c
=[μ
c

c
]
ꢀꢀ...

【专利技术属性】
技术研发人员:潘立馨宋彤彤关昊天王宇光
申请(专利权)人:慧言科技天津有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1