一种基于分级识别的快速语音识别方法技术

技术编号：34718109 阅读：17 留言：0更新日期：2022-08-31 18:02

一种基于分级识别的快速语音识别方法，对不同难度的语音进行分流将模型进行逐级拆解，使不同级别的模型处理不同难易程度的语音案例；本发明专利技术通过分级推理的方式，解决了大模型建模所需的计算资源受限的问题，大大降低了整体推理的复杂度，在节省计算资源的同时降低服务延迟。务延迟。务延迟。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分级识别的快速语音识别方法

[0001]本专利技术涉及语音识别领域，尤其涉及一种基于分级识别的快速语音识别方法。

技术介绍

[0002]随着算力的不断提升和数据的累计，语音识别系统的效果取得了明显的进步，以CTC和encoder
‑
decoder为代表的端到端建模方法对海量数据的利用更加充分，具有更强的建模能力。在语音识别领域，一种采用卷积增强的Conformer模型由谷歌在2020年提出后，不断刷新语音识别的准确率，已经成为当前语音识别声学建模的常规方法。在海量训练数据下，多层Conformer模型拥有更多的参数量，也被证明具备更强的建模能力。通常12
‑
24层的Conformer模型随着模型层数的增加，在海量训练数据的加持下，建模能力就更强。但是随着参数量的增加，在进行语音识别时，模型推理过程中的计算量就越大，所带来的能耗、延迟和需要的资源也越多，这就限制了大模型在实际场景中的应用。为了使深层Conformer网络能够应用在语音识别任务中，通常会采用减小隐层神经元个数或采用矩阵分解等方法降低参数量和计算量，但是这些方法通常也会带来一定的性能损失。同时，语音识别过程中模型推理的计算复杂度依旧随Conformer层数增加呈现线性增长。

技术实现思路

[0003]本专利技术的目的在于提供一种基于分级识别的快速语音识别方法，从而解决现有技术中存在的前述问题。
[0004]为了实现上述目的，本专利技术采用的技术方案如下：
[0005]一种基于分级识...

【技术保护点】

【技术特征摘要】
1.一种基于分级识别的快速语音识别方法，其特征在于，包括以下步骤：S1、对Conformer模型的深层网络进行划分，将具有R层的深层网络按照从底层到顶层的顺序每隔M层划分为一个的浅层网络，并在每一个所述浅层网络中的最后一层识别网络引出一个抽头使用浅层Decoder进行解码，形成F个具有浅层网络的Conformer模型；其中R和M表示网络层次的数量，F表示具有浅层网络的Conformer模型的数量，F＝R/M；S2、依照所述深层网络中从底层到顶层的顺序，对形成的所述浅层网络进行级别划分和排序，形成具有F个浅层网络的语音识别模型，对输入语音根据所述语音识别模型中所述浅层网络的级别进行逐级识别，判断所述输入语音的难易程度；S3、根据输入语音通过所述浅层网络的熵，判断所述输入语音的难易程度，判断所述输入语音是否还需要经过下一级别所述浅层网络的计算识别；所述浅层网络输出的熵值越小表示所述浅层网络输出的语音识别结果越确定，对于语音识别结果的歧义越小；反之，熵值越大表示所述浅层网络输出的语音识别结果越不确定，对于语音识别结果的歧义越大，需要具有更强建模能力的网络进行识别。2.一种基于分级识别的快速语音识别方法，其特征在于，包括以下步骤S1、对Conformer模型的深层网络进行划分，将具有R层的深层网络按照从底层到顶层的顺序每隔M层划分为一个的浅层网络，并在每一个所述浅层网络中的最后一层识别网络引出一个抽头使用浅层Decoder进行解码，形成F个具有浅层网络的Conformer模型；其中，R和M表示网络层次的数量，F表示具有浅层网络的Conformer模型的数量，F＝R/M；S2、依照所述深层网络中从底层到顶层的顺序，对形成的所述浅层网络进行级别划分和排序，形成具有F个浅层网络的语音识别模型，对输入语音根据所述语音识别模型中所述浅层网络的级别进行逐级识别，判断所述输入语音的难易程度；S3、依照所述浅层网络的级别从小到大的顺序，选择相邻的两个级别的浅层网络，对两个所述浅层网络输出的语音识别结果的一致性进行判断；当相邻的两个所述浅层网络的语音识别结果通过一致性判定时，认为声学建模已经完整；反之则需要具有更强建模能力的网络进行语音识别。3.根据权利要求1所述的基于分级识别的快速语音识别方法，其特征在于，所述输入语音经过所述浅层网络的熵的计算公式为：其中E表示熵值，L表示语音帧...

【专利技术属性】
技术研发人员：吕志强，
申请(专利权)人：名日之梦北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人