语音识别方法、装置和系统及存储介质制造方法及图纸

技术编号:26847554 阅读:29 留言:0更新日期:2020-12-25 13:12
本发明专利技术提供一种语音识别方法、装置和系统及存储介质。方法包括:获取待识别语音;提取待识别语音的声学特征;将声学特征输入转换器模型,以在第i个时间步获得转换器模型输出的与第i个语音段相对应的模型分数集合,i=1,2,……,n,模型分数集合包括与转换器模型所建模的文字集合中的所有文字一一对应的模型分数,每个模型分数表示第i个语音段属于该模型分数所对应的文字的概率;结合模型分数集合以及加权有限状态机模块,计算从第1个语音段至第i个语音段中的所有语音段所对应的至少一个转移路径各自的路径分数;基于至少一个转移路径各自的路径分数,获得与第i个语音段相对应的文字解码结果。该方法有助于提高整个语音识别系统的识别正确率。

【技术实现步骤摘要】
语音识别方法、装置和系统及存储介质
本专利技术涉及语音处理
,具体地,涉及一种语音识别方法、装置和系统及存储介质。
技术介绍
在语音识别领域,端到端(seq2seq)模型最近取得了长足的进步。它们消除了隐马尔可夫模型(HMM)和连接时序分类模型(CTC)所做出的不合理的帧独立性假设,从而使自己能够学习隐式语言模型,并更直接地优化词错误率(WER)。端到端模型中一个典型的代表是基于自注意(self-attention)的转换器(Transformer)模型。现有技术使用Transformer模型作为语音识别的整个处理模型。对于通用的场景,诸如日常聊天等一些常见表达时没什么问题。但是,当要预测比较生僻的词,或者人名地名这种专有名词时,就比较容易识别错。如果重新训练Transformer模型也会有很大困难:一是训练数据少,二是训练周期长,不能满足快速迭代的产品需求。
技术实现思路
为了至少部分地解决现有技术中存在的问题,提供一种语音识别方法、装置和系统及存储介质。根据本专利技术一个方面,提供一种语音识本文档来自技高网...

【技术保护点】
1.一种语音识别方法,包括:/n获取待识别语音;/n提取所述待识别语音的声学特征;/n将所述声学特征输入转换器模型,以在第i个时间步获得所述转换器模型输出的与第i个语音段相对应的模型分数集合,其中,所述待识别语音包括n个语音段,i=1,2,……,n,所述模型分数集合包括与所述转换器模型所建模的文字集合中的所有文字一一对应的模型分数,每个模型分数表示所述第i个语音段属于该模型分数所对应的文字的概率;/n结合所述模型分数集合以及加权有限状态机模块,计算从第1个语音段至所述第i个语音段中的所有语音段所对应的至少一个转移路径各自的路径分数;以及/n基于所述至少一个转移路径各自的路径分数,获得与所述第i...

【技术特征摘要】
1.一种语音识别方法,包括:
获取待识别语音;
提取所述待识别语音的声学特征;
将所述声学特征输入转换器模型,以在第i个时间步获得所述转换器模型输出的与第i个语音段相对应的模型分数集合,其中,所述待识别语音包括n个语音段,i=1,2,……,n,所述模型分数集合包括与所述转换器模型所建模的文字集合中的所有文字一一对应的模型分数,每个模型分数表示所述第i个语音段属于该模型分数所对应的文字的概率;
结合所述模型分数集合以及加权有限状态机模块,计算从第1个语音段至所述第i个语音段中的所有语音段所对应的至少一个转移路径各自的路径分数;以及
基于所述至少一个转移路径各自的路径分数,获得与所述第i个语音段相对应的文字解码结果。


2.根据权利要求1所述的语音识别方法,其中,所述将所述声学特征输入转换器模型,以在第i个时间步获得所述转换器模型输出的与第i个语音段相对应的模型分数集合包括:
将所述待识别语音的声学特征输入所述转换器模型的编码器模块,以获得所述编码器模块输出的编码结果;
在所述第i个时间步下,将在所述第i个语音段之前的所有语音段的文字解码结果与所述编码结果一起,输入所述转换器模型的解码器模块,以获得所述解码器模块输出的所述模型分数集合。


3.根据权利要求1所述的语音识别方法,其中,所述结合所述模型分数集合以及加权有限状态机模块,计算从第1个语音段至所述第i个语音段中的所有语音段所对应的转移路径各自的路径分数包括:
从所述加权有限状态机模块中获取所述第i个语音段所对应的转移分数集合,所述转移分数集合包括与从先前状态转移到当前状态集合的所有转移弧一一对应的转移分数,其中,在i=1的情况下,所述先前状态为起始状态,并且在i>1的情况下,所述先前状态为与第i-1个语音段的文字解码结果相对应的状态,所述当前状态集合包括所述先前状态链接到的所有当前状态;
对于从所述起始状态出发转移至所述当前状态集合的过程中经历的所有转移路径中的任一当前转移路径,将先前转移路径的路径分数、所述转移分数集合中的与特定转移弧相对应的转移分数、以及所述模型分数集合中的与特定文字相对应的模型分数相加,以获得所述当前转移路径的路径分数,其中,所述当前转移路径包括所述先前转移路径和所述特定跳转弧,所述先前转移路径是从所述起始状态出发转移至所述先前状态的过程中经历的转移路径,所述特定转移弧是从所述先前状态转移至所述当前状态集合中的当前状态之一的转移弧,所述特定文字是与所述特定转移弧上的输出标签一致的文字;
其中,所述至少一个转移路径是从所述起始状态出发转移至所述当前状态集合的过程中经历的所有转移路径。


4.根据权利要求3所述的语音识别方法,其中,所述基于所述第1个语音段至所述第i个语音段中的所有语音段所对应的至少一个转移路径各自的路径分数,获得与所述第i个语音段相对应的文字...

【专利技术属性】
技术研发人员:王杰李秀林
申请(专利权)人:标贝北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1