一种语音识别解码的方法及装置制造方法及图纸

技术编号:30154083 阅读:27 留言:0更新日期:2021-09-25 15:04
本发明专利技术提供了一种语音识别解码的方法及装置。语音识别解码方法包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。相比于传统的语音识别系统,本申请省略了帧级别对齐的流程,简化了训练和解码的流程;相比于端到端语音识别系统,在束搜索算法过程中使用加权有限状态转移器加快解码速度,高效地利用训练音频数据之外的文本数据,可以在多种领域快速部署语音识别系统。系统。系统。

【技术实现步骤摘要】
一种语音识别解码的方法及装置


[0001]本申请涉及人工智能领域,更具体的,涉及一种语音识别解码的方法及装置。

技术介绍

[0002]语言交流是人类最自然的交流方式之一,人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机专利技术之前,自动语音识别就已经提上了议程,早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究,语音识别技术已经渗透到我们生活的方方面面,应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。
[0003]传统的语音识别系统基于经典的信源信道模型(Source

ChannelModel),由声学模型、发音词典和语言模型组成,分别对音素、词语和语句建模。解码时采用加权有限状态机整合声学模型、发音词典和语音模型中的概率分布,在网络中搜索出一段语音信号对应的最大概率的文字内容。传统的语音识别系统在百千小时的训练数据上可以取得较高的准确率,已经得到工业界的广泛应用。但是随着训练数据的规模增长至千万小时,传统的语音识别系统的性能已经达到瓶颈。
[0004]近年来,基于深度神经网络的序列到序列模型在语音和自然语言处理领域迅速发展,基于编码器和解码器的端到端语音识别框架因此被提出并已被广泛验证。研究报告显示,基于端到端的语音识别系统在千万小时的训练数据上,性能可以超过传统的混合深度神经网络(Deep Neural Networks,DNN)和隐马尔可夫模型(Hidden Markov Model,HMM)。因为端到端语音识别系统省略了语音识别系统帧级别对齐的流程以及发音字典,简化了训练和解码的流程。但是基于编码器和解码器的端到端语音识别系统有以下两个缺点,其一是解码使用的束搜索算法基于自回归结构的神经网络,与传统语音识别解码相比速度下降明显;其二是训练使用的文本语料局限于有标注的音频,无法直接使用额外的文本语料,跨领域识别性能明显下降。

技术实现思路

[0005]为了解决以上问题,本申请提出一种语音识别解码方法及装置。
[0006]第一方面,本专利技术提供一种语音识别解码的方法,包括:
[0007]确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
[0008]通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
[0009]根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
[0010]优选地,根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;
[0011]根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语
言模型建立第三加权有限状态转移器;
[0012]对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。
[0013]优选地,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
[0014]优选地,所述根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,具体包括:
[0015]取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,

,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
[0016]A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
[0017]A2:当t大于1且小于N时,取出第t

1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;
[0018]A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;
[0019]A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t

1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5;否则,执行A2;
[0020]A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;
[0021]A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
[0022]第二方面,本专利技术提供一种语音识别解码的装置,包括:
[0023]特征提取模块,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
[0024]神经网络编码器模块,用于处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
[0025]识别模块,用于根据第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
[0026]优选地,还包括获取模块,用于:
[0027]根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,获取第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型获取第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获取所述第一加权有限状态转移器。
[0028]优选地,所述识别模块,用于根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应
的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
[0029]优选地,所述识别模块,用于执行如下步骤:
[0030]取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,

,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
[0031]A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
[0032]A2:当t大于1且小于N时,取出第t

1帧所对应的第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别解码的方法,其特征在于,包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。2.根据权利要求1所述的方法,其特征在于,还包括:根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。3.根据权利要求1或2所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。4.根据权利要求3所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,具体包括:取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,

,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;A2:当t大于1且小于N时,取出第t

1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t

1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5,否则执行A2;A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。5.一种语音识别解码的装置,其特征在于,包括:特征提取模块,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;神经网...

【专利技术属性】
技术研发人员:程高峰李鹏缪浩然石瑾张鹏远孙晓晨颜永红
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1