【技术实现步骤摘要】
一种语音识别解码的方法及装置
[0001]本申请涉及人工智能领域,更具体的,涉及一种语音识别解码的方法及装置。
技术介绍
[0002]语言交流是人类最自然的交流方式之一,人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机专利技术之前,自动语音识别就已经提上了议程,早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究,语音识别技术已经渗透到我们生活的方方面面,应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。
[0003]传统的语音识别系统基于经典的信源信道模型(Source
‑
ChannelModel),由声学模型、发音词典和语言模型组成,分别对音素、词语和语句建模。解码时采用加权有限状态机整合声学模型、发音词典和语音模型中的概率分布,在网络中搜索出一段语音信号对应的最大概率的文字内容。传统的语音识别系统在百千小时的训练数据上可以取得较高的准确率,已经得到工业界的广泛应用。但是随着训练数据的规模增长至千万小时,传统的语音识别系统的性能已经达到瓶颈。
[0004]近年来,基于深度神经网络的序列到序列模型在语音和自然语言处理领域迅速发展,基于编码器和解码器的端到端语音识别框架因此被提出并已被广泛验证。研究报告显示,基于端到端的语音识别系统在千万小时的训练数据上,性能可以超过传统的混合深度神经网络(Deep Neural Networks,DNN)和隐马尔可夫模型(Hidden ...
【技术保护点】
【技术特征摘要】
1.一种语音识别解码的方法,其特征在于,包括:确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。2.根据权利要求1所述的方法,其特征在于,还包括:根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。3.根据权利要求1或2所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。4.根据权利要求3所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,具体包括:取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,
…
,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:A1:当t=1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;A2:当t大于1且小于N时,取出第t
‑
1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t
‑
1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5,否则执行A2;A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;A6:当第t=N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。5.一种语音识别解码的装置,其特征在于,包括:特征提取模块,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;神经网...
【专利技术属性】
技术研发人员:程高峰,李鹏,缪浩然,石瑾,张鹏远,孙晓晨,颜永红,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。