【技术实现步骤摘要】
针对多口音语音识别的方法和装置
[0001]本专利技术属于模型训练
,尤其涉及针对多口音语音识别的方法和装置。
技术介绍
[0002]相关技术中,端到端(E2E,End
‑
to
‑
End)自动语音识别(ASR)模型在给定输入声学特征的情况下直接优化输出序列的概率,在各种语音语料库中都取得了长足的进步。当今ASR的最紧迫需求之一是在单个系统中支持多种口音,这在文献中通常被称为多口音语音识别。语音,语音和语法等口音语音的识别困难对当前的ASR系统构成了严峻挑战。一种简单的方法是根据混合数据(来自非母语人士的口音和来自母语人士的标准数据)构建单个ASR模型。但是,由于训练和推理过程中的口音失配,此类模型通常会遭受严重的性能下降。先前的工作已经探索了声学模型的不同口音自适应方法。MixNet基于专家混合(MoE)架构,其中专家专门用于区分特定于口音的语音差异。还探索了与模型无关的元学习(MAML) 方法,以学习快速适应未见口音。一键式口音向量可以很好地用于建立多基调,其中每个基音都旨在涵盖某
【技术保护点】
【技术特征摘要】
1.一种针对多口音语音识别的方法,其中,对于单语音识别系统,在编码阶段添加自适应层用于学习与口音有关的特征信息,包括:对于每个编码器块将口音表征向量作为一个指导信息,输入到所述自适应层中,用于指导所述自适应层中的转换函数,其中,一个编码器有多个串联的编码器块;将口音无关特征也同时输入到所述自适应层中;将所述口音无关特征和所述口音表征向量混合形成口音相关特征。2.根据权利要求1所述的方法,还包括基于多个基的自适应方法,包括:将所述口音表征向量经过一个预测概率的神经网络,输出对应不同基的概率;同时将口音无关特征输入每一个基里得到基相关的特征;将所述基相关的特征与所述概率合并起来得到口音相关特征。3.根据权利要求2所述的方法,其中,所述基于多个基的自适应方法包括:其中,将每个基的输出B
k
(h
i
)与相应的插值系数α
k
连接起来,缩放F
k
(
·
)和移位G
k
(
·
)的转换函数用于将输入h
i
转换为与口音相关的空间,其中,k=1,2,...,n,其中,n是自适应层基数,转换函数包括仅缩放操作和仅移位操作。4.根据权利要求3所述的方法,其中,为了从口音表征向量z估计插值系数α∈Rn,使用了插值参数预测器p(
·
)模型,公式如下:其中,插值系数α=(α1,...,αn)是多个基的概率,插值参数预测器p(
·
)由几个DNN层组成。5.根据权利要求2所述的方法,还包括:应用多任务学习方案来利用辅助任务的损失规范语音识别系统和预测器模型的训练,其中,来自预测器的辅助损耗被引入语音识别...
【专利技术属性】
技术研发人员:钱彦旻,龚勋,卢怡宙,周之恺,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。