一种音频场景分类辅助的语音识别快速自适应方法技术

技术编号：33401745 阅读：22 留言：0更新日期：2022-05-11 23:23

本发明专利技术公开了一种音频场景分类辅助的语音识别快速自适应方法，包括以下步骤：S1、训练得到一个音频场景分类模型，通过所述音频场景分类模型准确地提取输入音频的场景相关特征；S2、将音频场景分类模型所提取得到的场景相关特征和语音识别模型的声学特征进行融合，由于语音识别模型所获取的声学特征和音频场景分类模型所提取的场景相关特征之间有很强的相关性，将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容，得到识别准确率更高的融合模型，使得所述语音识别模型在目标域数据上得以快速自适应，提高语音识别模型的自适应能力。提高语音识别模型的自适应能力。提高语音识别模型的自适应能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频场景分类辅助的语音识别快速自适应方法

[0001]本专利技术涉及语音识别
，具体是涉及一种音频场景分类辅助的语音识别快速自适应方法。

技术介绍

[0002]语音识别(Automatic Speech Recognition，ASR)，是将语音转写为文字的技术。语音识别起始于1952年，当时贝尔实验室专利技术世界上第一个能识别10个英文数字语音的系统，到现在经历了70多年的发展，语音识别由实验室走向大众。特别是近20年来，得益于大数据、算力以及算法这三驾马车的驱动，语音识别开始得以广泛应用，如语音输入法、字幕生成、语音助手等功能等，给人们生活带来了极大便利。
[0003]随着语音识别应用场景的增多，在特定场景下快速上线语音识别系统越来越迫切。基于大规模数据训练的通用语音识别模型，一般可能由于训练数据不够全面，未能覆盖某特定场景的训练数据而导致在该特定场景下通用的语音识别模型识别效果不佳，因此不能直接将该通用模型在该场景下进行上线和应用。此时需要收集该场景下的语音数据，并进行模型的定制化工作，以提高该场景下模型的识别准确率。
[0004]一般的模型定制化工作大致可分为以下几个步骤：1)收集特定场景下的语音数据，并对音频进行人工标注。2)使用这些标注好的数据对已经在大规模数据集上训练好的通用的语言识别模型继续进行训练，这个过程被称为微调(fine
‑
tune)。3)对微调后的模型在该特定场景下进行上线及应用。
[0005]使用这种模型定制化的方法可以提高语音识别模型在...

【技术保护点】

【技术特征摘要】
1.一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，包括以下步骤：S1、训练得到一个音频场景分类模型，通过所述音频场景分类模型准确地提取输入音频的场景相关特征；S2、将音频场景分类模型所提取得到的相关场景特征和语音识别模型的声学特征进行融合，将场景相关特征输入到语音识别模型后能够使得语音识别模型可以更专注于所识别的内容，得到识别准确率更高的融合模型，使得所述语音识别模型在目标域数据上得以快速自适应，提高语音识别模型的自适应能力。2.根据权利要求1所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述步骤S1中，所述音频场景分类模型包括：特征提取器、音频编码模块、映射层；所述音频编码模块包括卷积降采样层、卷积增强的变压器块、注意力统计池化层；所述卷积降采样层是由两层卷积神经网络模块组成，所述卷积增强的变压器块为多层结构，每一层包括前馈神经网络、多头自注意力模块、卷积模块。3.如权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述音频场景分类模型提取输入音频的场景相关特征的方法为：S1
‑
1、首先通过所述特征提取器提取出80维滤波器组特征；S1
‑
2、通过所述音频编码模块对输入特征进行编码，具体为：S1
‑2‑
1、通过所述卷积降采样层的两层卷积神经网络模块对输入的语音在时间维度降采样为原来的四分之一；S1
‑2‑
2、经过若干层卷积增强的变压器块搭建编码器用来对输入特征进行编码；S1
‑2‑
3、经过块级别的注意力统计池化层，获得块级别的嵌入向量特征；S1
‑
3、所述嵌入向量特征经过映射层获得该块对应的类别，即获得了输出的分类信息。4.根据权利要求2所述的一种音频场景分类辅助的语音识别快速自适应方法，其特征在于，所述音频场景分类模型提取场景分类特征的计算公式为：e
ct
＝W2(ReLU(W1h
ct
))
ꢀꢀꢀ
(2)(2)(2)embedding
c
＝[μ
c
:σ
c
]
ꢀꢀ...

【专利技术属性】
技术研发人员：潘立馨，宋彤彤，关昊天，王宇光，
申请(专利权)人：慧言科技天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人