一种语音解码方法、装置和终端设备制造方法及图纸

技术编号:25525495 阅读:20 留言:0更新日期:2020-09-04 17:14
本发明专利技术实施例提供一种语音解码方法、装置和终端设备,该方法包括:基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;建立包括N个第一解码结果和M个第二解码结果的时间序列;将所述时间序列包括的解码结果按照在所述时间序列的时间顺序输入至LSTM模型进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。本发明专利技术实施例可以提高语音信号的解码准确度。

【技术实现步骤摘要】
一种语音解码方法、装置和终端设备
本专利技术涉及语音处理
,尤其涉及一种语音解码方法、装置和终端设备。
技术介绍
随着智能设备的不断普及,语音交互逐渐成为人机交互的主要方式。然而,在实际应用中用户与设备之间往往存在一定距离,这样会存在噪声的干扰或者语音信号强度的衰弱,这样增加语音信号解码的难度。目前常用语音解码方法主要基于语言模型和声学模型获取语音信号的解码结果,并提取每个解码结果的多维特征,之后通过逻辑回归(LogisticsRegression,LR)模型对这些解码结果的特征进行预测,以选择出最终的解码结果,但由于LR模型是对每个解码结果单独预测的,从而导致语音信号的解码准确度比较低。
技术实现思路
本专利技术实施例提供一种语音解码方法、装置和终端设备,以解决语音信号的解码准确度比较低的问题。第一方面,本专利技术实施例提供一种语音解码方法,包括:基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;建立包括N个第一解码结果和M个第二解码结果的时间序列,其中,所述N为大于或者等于1的整数,所述M为大于或者等于1的整数;依据长短时记忆(LongShort-TermMemory,LSTM)模型对所述时间序列进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。可选的,所述第一解码结果集包括所述至少一个第一解码结果,以及每个第一解码结果的第二分数,所述第二解码结果集包括所述至少一个第二解码结果,以及每个第二解码结果的第二分数;所述N个第一解码结果为所述第一解码结果集中第二分数按照从高到低的排序中前N个第一解码结果,所述M个第二解码结果为所述第二解码结果集中第二分数按照从高到低的排序中前M个第二解码结果。可选的,所述LSTM模型包括前向LSTM层、反向LSTM层和输出层,在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻,所述依据长短时记忆LSTM模型对所述时间序列进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果,包括:提取所述时间序列中每个解码结果的多维特征,以得到每个时刻的多维特征,其中,所述多维特征包括声学特征和语义特征;将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层,以得到各时刻的前向LSTM层输出,其中,所述前向LSTM层中第i时刻的输出与前i-1个时刻都存在关联,所述i为大于或者等于2的整数;将所述时间序列包括各时刻的多维特征按照时间顺序输入至所述反向LSTM层,以得到各时刻的反向LSTM层输出,其中,所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联,所述j为大于或者等于1的整数,且所述j小于M+N;将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层,以得到各时刻对应的解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。可选的,所述N等于所述M,所述建立包括N个第一解码结果和M个第二解码结果的时间序列,包括:将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列,其中,所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻,且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。可选的,所述LSTM模型的训练过程如下:将语音样本的多个候选解码结果建模成时间序列,以得到所述语音样本的训练时间序列;使用所述训练时间序列对基础模型进行训练,以得到所述LSTM模型。第二方面,本专利技术实施例提供一种语音识别装置,包括:获取模块,用于基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;建立模块,用于建立包括N个第一解码结果和M个第二解码结果的时间序列,其中,所述N为大于或者等于1的整数,所述M为大于或者等于1的整数;处理模块,用于依据LSTM模型对所述时间序列进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。可选的,所述第一解码结果集包括所述至少一个第一解码结果,以及每个第一解码结果的第二分数,所述第二解码结果集包括所述至少一个第二解码结果,以及每个第二解码结果的第二分数;所述N个第一解码结果为所述第一解码结果集中第二分数按照从高到低的排序中前N个第一解码结果,所述M个第二解码结果为所述第二解码结果集中第二分数按照从高到低的排序中前M个第二解码结果。可选的,所述LSTM模型包括前向LSTM层、反向LSTM层和输出层,在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻,所述处理模块包括:提取单元,用于提取所述时间序列中每个解码结果的多维特征,以得到每个时刻的多维特征,其中,所述多维特征包括声学特征和语义特征;前向处理单元,用于将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层,以得到各时刻的前向LSTM层输出,其中,所述前向LSTM层中第i时刻的输出与前i-1个时刻都存在关联,所述i为大于或者等于2的整数;反向处理单元,用于将所述时间序列包括各时刻的多维特征按照时间顺序输入至所述反向LSTM层,以得到各时刻的反向LSTM层输出,其中,所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联,所述j为大于或者等于1的整数,且所述j小于M+N;输出单元,用于将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层,以得到各时刻对应的解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。可选的,所述N等于所述M,所述建立模块用于将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列,其中,所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻,且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。可选的,所述LSTM模型的训练过程如下:将语音样本的多个候选解码结果建模成时间序列,以得到所述语音样本的训练时间序列;使用所述训练时间序列对基础模型进行训练,以得到所述LSTM模型。第三方面,本专利技术实施例提供一种终端设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本专利技术实施例提供的语音解码方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程本文档来自技高网...

【技术保护点】
1.一种语音解码方法,其特征在于,包括:/n基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;/n建立包括N个第一解码结果和M个第二解码结果的时间序列,其中,所述N为大于或者等于1的整数,所述M为大于或者等于1的整数;/n依据长短时记忆LSTM模型对所述时间序列进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。/n

【技术特征摘要】
1.一种语音解码方法,其特征在于,包括:
基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述声学模型获取所述语音信号的第二解码结果集,其中,所述第一解码结果集包括至少一个第一解码结果,所述第二解码结果集包括至少一个第二解码结果;
建立包括N个第一解码结果和M个第二解码结果的时间序列,其中,所述N为大于或者等于1的整数,所述M为大于或者等于1的整数;
依据长短时记忆LSTM模型对所述时间序列进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。


2.如权利要求1所述的方法,其特征在于,所述第一解码结果集包括所述至少一个第一解码结果,以及每个第一解码结果的第二分数,所述第二解码结果集包括所述至少一个第二解码结果,以及每个第二解码结果的第二分数;
所述N个第一解码结果为所述第一解码结果集中第二分数按照从高到低的排序中前N个第一解码结果,所述M个第二解码结果为所述第二解码结果集中第二分数按照从高到低的排序中前M个第二解码结果。


3.如权利要求1或2所述的方法,其特征在于,所述LSTM模型包括前向LSTM层、反向LSTM层和输出层,在所述时间序列中所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻,所述依据长短时记忆LSTM模型对所述时间序列进行联合预测,以得到所述时间序列内每个解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果,包括:
提取所述时间序列中每个解码结果的多维特征,以得到每个时刻的多维特征,其中,所述多维特征包括声学特征和语义特征;
将所述时间序列包括的各时刻的多维特征按照时间顺序输入至所述前向LSTM层,以得到各时刻的前向LSTM层输出,其中,所述前向LSTM层中第i时刻的输出与前i-1个时刻都存在关联,所述i为大于或者等于2的整数;
将所述时间序列包括各时刻的多维特征按照时间顺序输入至所述反向LSTM层,以得到各时刻的反向LSTM层输出,其中,所述反向LSTM层中第j时刻的输出与后M+N-j个时刻都存在关联,所述j为大于或者等于1的整数,且所述j小于M+N;
将各时刻的前向LSTM层的输出和反向LSTM层的输出输入到输出层,以得到各时刻对应的解码结果的第一分数,并输出所述时间序列中第一分数最高的解码结果。


4.如权利要求1或2所述的方法,其特征在于,所述N等于所述M,所述建立包括N个第一解码结果和M个第二解码结果的时间序列,包括:
将N个第一解码结果和M个第二解码结果建模成包括N+M个时刻的时间序列,其中,所述N个第一解码结果和所述M个第二解码结果分别对应所述N+M个时刻,且在所述时间序列中任意第一解码结果的相邻时刻的解码结果为第二解码结果。


5.如权利要求1或2所述的方法,其特征在于,所述LSTM模型的训练过程如下:
将语音样本的多个候选解码结果建模成时间序列,以得到所述语音样本的训练时间序列;
使用所述训练时间序列对基础模型进行训练,以得到所述LSTM模型。


6.一种语音识别装置,其特征在于,包括:
获取模块,用于基于第一语言模型和声学模型获取语音信号的第一解码结果集,以及基于第二语言模型和所述...

【专利技术属性】
技术研发人员:陈涛付晓寅臧启光吴玉芳瞿琴
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1