语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37331130 阅读:28 留言:0更新日期:2023-04-21 23:08
本发明专利技术实施例提供一种语音识别方法、装置、电子设备及存储介质,该方法包括:将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;基于所述第一预测结果确定所述待识别语音的识别结果。本发明专利技术实施例提供的语音识别方法、装置、电子设备及存储介质提高了语音识别的准确度。高了语音识别的准确度。高了语音识别的准确度。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音处理
,尤其涉及一种语音识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音识别技术的不断成熟,其被广泛应用于车载导航、智能家居和社交聊天等众多领域,给人们的生活带来了极大的便利。
[0003]目前,在进行语音识别时,使用较为广泛的通常是传统的基于声学模型(Acoustic Model,AM)和语言模型(Language Model,LM)这种分段式的语音识别方法。在语音识别过程中,在进行文本内容解码时,该方法通会用到N

gram语言模型,该模型通过滑动固定字节长度窗口的方式,对文本中每个句子的每个字节片段(gram)在语料库中出现的频度进行统计,以此计算出整个句子的出现概率,即句子中各个词的出现概率的乘积,从而得到具有最大概率的句子,使得模型输出的句子更加合理。
[0004]然而,上述方式中,对同音但不同词性的词语并不能进行准确识别,如待识别语音为“我请助手一起帮忙”,则有可能被识别为“我请住手一起帮忙”,从而导致语音识别的准确度较低。

技术实现思路

[0005]本专利技术提供一种语音识别方法、装置、电子设备及存储介质,用以解决现有技术中语音识别的准确度较低的缺陷,实现了提高语音识别的准确度的目的。
[0006]本专利技术提供一种语音识别方法,包括:
[0007]将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;
[0008]将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;
[0009]将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;
[0010]基于所述第一预测结果确定所述待识别语音的识别结果。
[0011]根据本专利技术提供的一种语音识别方法,所述将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果,包括:
[0012]针对所述多个候选解码文本中的各候选解码文本,将所述候选解码文本输入所述第二语言模型的输入层,得到所述候选解码文本的编码特征;
[0013]将所述编码特征输入所述第二语言模型的中间层,得到特征子图;
[0014]将所述特征子图输入所述第二语言模型的输出层,得到所述候选解码文本属于各标准语法结构的第一预测结果。
[0015]根据本专利技术提供的一种语音识别方法,所述将所述特征子图输入所述第二语言模型的输出层,得到所述候选解码文本属于各标准语法结构的第一预测结果,包括:
[0016]将所述特征子图输入所述第二语言模型的输出层,确定所述特征子图与各所述标准语法结构对应的标准编码特征之间的相似度;
[0017]基于所述相似度,确定各所述候选解码文本属于各标准语法结构的第一预测结果。
[0018]根据本专利技术提供的一种语音识别方法,所述第二语言模型的输出层中包括多个有向图,所述有向图用于表征所述标准语法结构。
[0019]根据本专利技术提供的一种语音识别方法,所述第二语言模型为基于如下方式训练得到的:
[0020]获取语音样本对应的多个候选样本解码文本;
[0021]将所述多个候选样本解码文本输入初始第二语言模型中,输出各所述候选样本解码文本属于各标准语法结构的第二预测结果;
[0022]基于所述第二预测结果,对所述初始第二语言模型进行训练,得到所述第二语言模型。
[0023]根据本专利技术提供的一种语音识别方法,所述基于所述第二预测结果,对所述初始第二语言模型进行训练,得到所述第二语言模型,包括:
[0024]针对每个候选样本解码文本,基于所述候选样本解码文本对应的第二预测结果,以及各所述标准语法结构对应的目标值,确定所述候选样本解码文本与各所述标准语法结构之间的损失信息;
[0025]基于所述候选样本解码文本与各所述标准语法结构之间的损失信息,确定所述候选样本解码文本对应的目标损失;
[0026]基于各所述候选样本解码文本对应的目标损失,对所述初始第二语言模型进行迭代训练,得到所述第二语言模型。
[0027]根据本专利技术提供的一种语音识别方法,所述第一预测结果包括各所述候选解码文本属于各标准语法结构的打分值;
[0028]所述基于所述第一预测结果确定所述待识别语音的识别结果,包括:
[0029]将各所述候选解码文本属于各标准语法结构的打分值中,打分值最高的候选解码文本确定为所述识别结果。
[0030]本专利技术还提供一种语音识别装置,包括:
[0031]输入模块,用于通过将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;
[0032]所述输入模块,还用于通过将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;
[0033]所述输入模块,还用于通过将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;
[0034]确定模块,用于基于所述第一预测结果确定所述待识别语音的识别结果。
[0035]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法。
[0036]本专利技术还提供一种电子设备,包括麦克风,还包括存储器、处理器及存储在所述存
储器上并可在所述处理器上运行的计算机程序,所述麦克风用于采集待识别语音;
[0037]所述处理器执行所述计算机程序中的声学模型、第一语言模型和第二语言模型,将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;基于所述第一预测结果确定所述待识别语音的识别结果。
[0038]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
[0039]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音识别方法。
[0040]本专利技术提供的语音识别方法、装置、电子设备及存储介质,通过将待识别语音输入声学模型中,得到待识别语音对应的音素序列,将音素序列输入至第一语言模型中,得到待识别语音对应的多个候选解码文本,以并将得到的多个候选解码文本输入第二语言模型中,得到各候选解码文本属于各标准语法结构的第一预测结果,也即得到各候选解码文本的语法结构合理度打分,以此通过该第一预测结果,确定出待识别语音的识别结果。由于词语的词性不同时,对应的语法结构不同,因此,可以通过将多个候选解码文本输入第二语言模型中,并基于第二语言模型中的标准语法结构,预测每个候本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;基于所述第一预测结果确定所述待识别语音的识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果,包括:针对所述多个候选解码文本中的各候选解码文本,将所述候选解码文本输入所述第二语言模型的输入层,得到所述候选解码文本的编码特征;将所述编码特征输入所述第二语言模型的中间层,得到特征子图;将所述特征子图输入所述第二语言模型的输出层,得到所述候选解码文本属于各标准语法结构的第一预测结果。3.根据权利要求2所述的语音识别方法,其特征在于,所述将所述特征子图输入所述第二语言模型的输出层,得到所述候选解码文本属于各标准语法结构的第一预测结果,包括:将所述特征子图输入所述第二语言模型的输出层,确定所述特征子图与各所述标准语法结构对应的标准编码特征之间的相似度;基于所述相似度,确定各所述候选解码文本属于各标准语法结构的第一预测结果。4.根据权利要求2或3所述的语音识别方法,其特征在于,所述第二语言模型的输出层中包括多个有向图,所述有向图用于表征所述标准语法结构。5.根据权利要求1

3任一项所述的语音识别方法,其特征在于,所述第二语言模型为基于如下方式训练得到的:获取语音样本对应的多个候选样本解码文本;将所述多个候选样本解码文本输入初始第二语言模型中,输出各所述候选样本解码文本属于各标准语法结构的第二预测结果;基于所述第二预测结果,对所述初始第二语言模型进行训练,得到所述第二语言模型。6.根据权利要求5所述的语音识别方法,其特征在于,所述基于所述第二预测结果,对所述初始第二语言模型进行训练,得到所述第二语言模型,包括:针对每个候选样本解码文本,基于所述候选样本解码文本对应的第二预测结果,以及各所述标准语法结构...

【专利技术属性】
技术研发人员:冯景南付中华
申请(专利权)人:西安讯飞超脑信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1