一种基于分级识别的快速语音识别方法技术

技术编号:34718109 阅读:17 留言:0更新日期:2022-08-31 18:02
一种基于分级识别的快速语音识别方法,对不同难度的语音进行分流将模型进行逐级拆解,使不同级别的模型处理不同难易程度的语音案例;本发明专利技术通过分级推理的方式,解决了大模型建模所需的计算资源受限的问题,大大降低了整体推理的复杂度,在节省计算资源的同时降低服务延迟。务延迟。务延迟。

【技术实现步骤摘要】
一种基于分级识别的快速语音识别方法


[0001]本专利技术涉及语音识别领域,尤其涉及一种基于分级识别的快速语音识别方法。

技术介绍

[0002]随着算力的不断提升和数据的累计,语音识别系统的效果取得了明显的进步,以CTC和encoder

decoder为代表的端到端建模方法对海量数据的利用更加充分,具有更强的建模能力。在语音识别领域,一种采用卷积增强的Conformer模型由谷歌在2020年提出后,不断刷新语音识别的准确率,已经成为当前语音识别声学建模的常规方法。在海量训练数据下,多层Conformer模型拥有更多的参数量,也被证明具备更强的建模能力。通常12

24层的Conformer模型随着模型层数的增加,在海量训练数据的加持下,建模能力就更强。但是随着参数量的增加,在进行语音识别时,模型推理过程中的计算量就越大,所带来的能耗、延迟和需要的资源也越多,这就限制了大模型在实际场景中的应用。为了使深层Conformer网络能够应用在语音识别任务中,通常会采用减小隐层神经元个数或采用矩阵分解等方法降低参数量和计算量,但是这些方法通常也会带来一定的性能损失。同时,语音识别过程中模型推理的计算复杂度依旧随Conformer层数增加呈现线性增长。

技术实现思路

[0003]本专利技术的目的在于提供一种基于分级识别的快速语音识别方法,从而解决现有技术中存在的前述问题。
[0004]为了实现上述目的,本专利技术采用的技术方案如下:
[0005]一种基于分级识别的快速语音识别方法,包括以下步骤:
[0006]S1、对Conformer模型的深层网络进行划分,将具有R层的深层网络按照从底层到顶层的顺序每隔M层划分为一个的浅层网络,并在每一个所述浅层网络中的最后一层识别网络引出一个抽头使用浅层Decoder进行解码,形成F个具有浅层网络的Conformer模型;其中R和M表示网络层次的数量,F表示具有浅层网络的Conformer模型的数量,F=R/M;
[0007]S2、依照所述深层网络中从底层到顶层的顺序,对形成的所述浅层网络进行级别划分和排序,形成具有F个浅层网络的语音识别模型,对输入语音根据所述语音识别模型中所述浅层网络的级别进行逐级识别,判断所述输入语音的难易程度;
[0008]S3、根据输入语音通过所述浅层网络的熵,判断所述输入语音的难易程度,判断所述输入语音是否还需要经过下一级别所述浅层网络的计算识别;所述浅层网络输出的熵值越小表示所述浅层网络输出语音识别结果越确定,对于语音识别结果的歧义越小;反之,熵值越大表示所述浅层网络输出的语音识别结果越不确定,对于语音识别结果的歧义越大,需要具有更强建模能力的网络进行识别。
[0009]一种基于分级识别的快速语音识别方法,包括以下步骤
[0010]S1、对Conformer模型的深层网络进行划分,将具有R层的深层网络按照从底层到顶层的顺序每隔M层划分为一个的浅层网络,并在每一个所述浅层网络中的最后一层识别
网络引出一个抽头使用浅层Decoder进行解码,形成F个具有浅层网络的Conformer模型;其中,R和M表示网络层次的数量,F表示具有浅层网络的Conformer模型的数量,F=R/M;
[0011]S2、依照所述深层网络中从底层到顶层的顺序,对形成的所述浅层网络进行级别划分和排序,形成具有F个浅层网络的语音识别模型,对输入语音根据所述语音识别模型中所述浅层网络的级别进行逐级识别,判断所述输入语音的难易程度;
[0012]S3、依照所述浅层网络的级别从小到大的顺序,选择相邻的两个级别的浅层网络,对两个所述浅层网络输出的语音识别结果的一致性进行判断;当相邻的两个所述浅层网络的语音识别结果通过一致性判定时,认为声学建模已经完整;反之则需要具有更强建模能力的网络进行语音识别。
[0013]优选的,所述输入语音经过所述浅层网络的熵的计算公式为:
[0014][0015]其中E表示熵值,L表示语音帧数,N表示输入语音中需要进行语音识别的单元总量,p
li
表示输入语音中第i个语音识别单元在第l帧进行语音识别的概率。
[0016]优选的,步骤S3所述的语音难易程度的判断依据为:设定熵的阈值,当第f级别的所述浅层网络输出的熵值小于所述阈值时,确定所述输入语音的难易程度,判定所述输入语音经过第f级别的所述浅层网络输出的语音识别结果为最终结果;否则所述输入语音继续向上通过所述浅层网络逐级进行语音识别,直至所述浅层网络的熵值小于所述阈值或所述浅层网络的级别为第F级;其中f表示所述语音识别模型中所述浅层网络的级别。
[0017]优选的,步骤S3所述的语音难易程度的判断依据为:设定识别结果差异阈值threshold,当两个级别的所述浅层网络的语音识别结果差异小于所述差异阈值,即diff(result1,result2)<threshold时,则认为声学建模已经完整;若两个语音识别结果差异大于所述差异阈值,即diff(result1,result2)≥threshold时,则认为当前的浅层网络构成的语音识别模型对于语音的建模能力不足,继续向上通过所述浅层模型逐级进行语音识别,直至相邻的两个所述浅层网络的语音识别结果通过一致性判断或所述浅层网络的级别为第F级。
[0018]优选的,步骤S3中,当相邻的两个所述浅层网络的语音识别结果通过一致性判定时,将当前两个级别的所述浅层网络的语音识别结果通过线性加权作为输出的最终结果。
[0019]优选的,步骤S1中对Conformer模型的深层网络进行划分方式为:对于R层的深层网络,每隔M层引出一个抽头使用一个浅层Decoder进行解码,则共设置F个浅层Decoder,形成F个浅层网络。
[0020]优选的,针对步骤S2中形成的具有浅层网络的语音识别模型,采用R/M个分支对级别递进的浅层网络进行多任务联合训练。
[0021]优选的,对于具有不同网络深度的模型,在浅层网络中均为共享参数。
[0022]本专利技术的有益效果是:本专利技术公开了一种基于分级识别的快速语音识别方法,对不同难度的语音进行分流将模型进行逐级拆解,使不同级别的模型能够处理不同难易程度的案例;本专利技术通过分级推理的方式,解决了大模型建模所需的计算资源受限的问题,大大降低了整体推理的复杂度,在节省计算资源的同时降低服务延迟。
附图说明
[0023]图1是分级识别的快速语音识别流程图;
[0024]图2是分级识别的快速语音识别结构图;
[0025]图3是分级识别的判断准则结构图;
[0026]图4是分级识别的结果度量结构图。
具体实施方式
[0027]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。
[0028]一种基于分级识别的快速语音识别方法,将多层Conf本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分级识别的快速语音识别方法,其特征在于,包括以下步骤:S1、对Conformer模型的深层网络进行划分,将具有R层的深层网络按照从底层到顶层的顺序每隔M层划分为一个的浅层网络,并在每一个所述浅层网络中的最后一层识别网络引出一个抽头使用浅层Decoder进行解码,形成F个具有浅层网络的Conformer模型;其中R和M表示网络层次的数量,F表示具有浅层网络的Conformer模型的数量,F=R/M;S2、依照所述深层网络中从底层到顶层的顺序,对形成的所述浅层网络进行级别划分和排序,形成具有F个浅层网络的语音识别模型,对输入语音根据所述语音识别模型中所述浅层网络的级别进行逐级识别,判断所述输入语音的难易程度;S3、根据输入语音通过所述浅层网络的熵,判断所述输入语音的难易程度,判断所述输入语音是否还需要经过下一级别所述浅层网络的计算识别;所述浅层网络输出的熵值越小表示所述浅层网络输出的语音识别结果越确定,对于语音识别结果的歧义越小;反之,熵值越大表示所述浅层网络输出的语音识别结果越不确定,对于语音识别结果的歧义越大,需要具有更强建模能力的网络进行识别。2.一种基于分级识别的快速语音识别方法,其特征在于,包括以下步骤S1、对Conformer模型的深层网络进行划分,将具有R层的深层网络按照从底层到顶层的顺序每隔M层划分为一个的浅层网络,并在每一个所述浅层网络中的最后一层识别网络引出一个抽头使用浅层Decoder进行解码,形成F个具有浅层网络的Conformer模型;其中,R和M表示网络层次的数量,F表示具有浅层网络的Conformer模型的数量,F=R/M;S2、依照所述深层网络中从底层到顶层的顺序,对形成的所述浅层网络进行级别划分和排序,形成具有F个浅层网络的语音识别模型,对输入语音根据所述语音识别模型中所述浅层网络的级别进行逐级识别,判断所述输入语音的难易程度;S3、依照所述浅层网络的级别从小到大的顺序,选择相邻的两个级别的浅层网络,对两个所述浅层网络输出的语音识别结果的一致性进行判断;当相邻的两个所述浅层网络的语音识别结果通过一致性判定时,认为声学建模已经完整;反之则需要具有更强建模能力的网络进行语音识别。3.根据权利要求1所述的基于分级识别的快速语音识别方法,其特征在于,所述输入语音经过所述浅层网络的熵的计算公式为:其中E表示熵值,L表示语音帧...

【专利技术属性】
技术研发人员:吕志强
申请(专利权)人:名日之梦北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1