【技术实现步骤摘要】
语音识别方法、深度学习模型的训练方法、装置和设备
[0001]本公开涉及人工智能
,尤其涉及语音识别和深度学习等
,具体涉及一种语音识别方法
、
用于语音识别的深度学习模型的训练方法
、
语音识别装置
、
用于语音识别的深度学习模型的训练装置
、
电子设备
、
计算机可读存储介质和计算机程序产品
。
技术介绍
[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为
(
如学习
、
推理
、
思考
、
规划等
)
的学科,既有硬件层面的技术也有软件层面的技术
。
人工智能硬件技术一般包括如传感器
、
专用人工智能芯片
、
云计算
、
分布式存储
、
大数据处理等技术;人工智能软件技术主要包括自然语言处理技术
、
计算机视觉技术
、
语音识别技术以及机器学习
/
深度学习
、
大数据处理技术
、
知识图谱技术等几大方向
。
[0003]自动语音识别
(Auto Speech Recognition
,
ASR)
是一种通过计算机把输入的语音信号自动转换为对应的文本的技术
。
随着深度学习技术在语音识别领域的深入研 ...
【技术保护点】
【技术特征摘要】
1.
一种语音识别方法,包括:获取待识别语音的第一语音特征,所述第一语音特征包括与所述待识别语音中的多个语音片段对应的多个语音片段特征;利用第一解码器对所述第一语音特征进行解码,得到与所述待识别语音中的多个字对应的多个第一解码结果,所述第一解码结果指示对应的字的第一识别结果;基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征,所述第一先验信息包括所述多个第一解码结果,所述第二语音特征包括与所述多个字对应的多个第一字级别音频特征;以及利用第二解码器对所述第二语音特征进行解码,得到与所述多个字对应的多个第二解码结果,所述第二解码结果指示对应的字的第二识别结果
。2.
根据权利要求1所述的方法,其中,基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征包括:针对所述多个字中的每一个字,将该字对应的第一解码结果作为注意力模块的查询特征,将所述第一语音特征作为所述注意力模块的键特征和值特征,以获取所述注意力模块输出的与该字对应的第一字级别音频特征
。3.
根据权利要求2所述的方法,其中,基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征包括:利用第二编码器对所述多个字对应的多个第一字级别音频特征进行全局编码,以得到强化后的第二语音特征
。4.
根据权利要求1‑3中任一项所述的方法,其中,利用第二解码器对所述第二语音特征进行解码,得到与所述多个字对应的多个第二解码结果包括:针对所述多个字中的每一个字,将该字对应的第一解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器输出的与该字对应的第二解码结果
。5.
根据权利要求4所述的方法,其中,所述第二解码器包括正向解码器和反向解码器,所述正向解码器和所述反向解码器均被配置为针对所述多个字中的每一个字,将该字的第一解码结果作为输入的查询特征,并且将所述第二语音特征作为输入的键特征和值特征,所述正向解码器被配置为对输入的特征进行从左向右的时间掩码,所述反向解码器被配置为对输入的特征进行从右向左的时间掩码
。6.
根据权利要求5所述的方法,其中,针对所述多个字中的每一个字,将该字的第一解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器输出的与该字对应的第二解码结果包括:将所述正向解码器输出的与所述多个字对应的多个正向解码特征和所述反向解码器输出的与所述多个字对应的反向解码特征进行融合,得到与所述多个字对应的多个融合特征;以及基于所述多个融合特征,得到所述多个第二解码结果
。7.
根据权利要求4所述的方法,还包括:针对所述多个字中的每一个字,将该字的第
N
解码结果作为所述第二解码器的查询特征,将所述第二语音特征作为所述第二解码器的键特征和值特征,以获取所述第二解码器
输出的与该字对应的第
N+1
解码结果,其中,
N
为大于等于2的整数
。8.
根据权利要求1‑3中任一项所述的方法,还包括:基于第二先验信息,从所述第一语音特征中抽取得到第三语音特征,所述第二先验信息包括所述多个第二解码结果,所述第三语音特征包括与所述多个字对应的多个第二字级别音频特征;以及利用所述第二解码器对所述第三语音特征进行解码,得到与所述多个字对应的多个第三解码结果,所述第三解码结果指示对应的字的第三识别结果
。9.
根据权利要求1‑3中任一项所述的方法,其中,获取待识别语音的第一语音特征包括:获取所述待识别语音的原始语音特征;基于所述原始语音特征,确定所述待识别语音中的多个尖峰;以及对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征
。10.
根据权利要求9所述的方法,其中,所述多个语音片段特征是对所述原始语音特征进行流式截断而依次得到的,利用第一解码器对所述第一语音特征进行解码包括:利用所述第一解码器,对所述多个语音片段特征依次进行流式解码
。11.
根据权利要求
10
所述的方法,其中,获取待识别语音的第一语音特征包括:针对当前得到的语音片段特征,获取对应的历史特征抽象信息,所述历史特征抽象信息是利用在先的语音片段特征对应的第一解码结果对所述在先的语音片段特征进行注意力建模而得到的;以及利用第一编码器,结合所述历史特征抽象信息对所述当前得到的语音片段特征进行编码,以得到对应的强化后的语音片段特征
。12.
根据权利要求
11
所述的方法,其中,利用第一编码器,结合所述历史特征抽象信息对所述当前得到的语音片段特征进行编码,以得到对应的强化后的语音片段特征包括:将所述当前得到的语音片段特征作为所述第一编码器的查询特征,将所述历史特征抽象信息和所述当前得到的语音片段特征的拼接结果作为所述第一编码器的键特征和值特征,以获取所述第一编码器输出的所述对应的强化后的语音片段特征
。13.
根据权利要求9所述的方法,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:基于预设时间长度对所述原始语音特征进行截断,并将所述多个尖峰中的每个尖峰所在的语音片段的语音片段特征作为与该尖峰对应的语音片段特征
。14.
根据权利要求9所述的方法,其中,对所述原始语音特征进行截断,得到与所述多个尖峰一一对应的所述多个语音片段特征包括:基于所述多个尖峰对所述原始语音特征进行截断,并将每两个相邻尖峰之间的语音片段的特征作为与其中一个尖峰对应的语音片段特征
。15.
根据权利要求1‑3中任一项所述的方法,其中,所述第二解码器为语音大模型
。16.
一种用于语音识别的深度学习模型的训练方法,所述深度学习模型包括第一解码器和第二解码器,所述训练方法包括:获取样本语音和所述样本语音中的多个字的真实识别结果;
获取所述样本语音的第一样本语音特征,所述第一样本语音特征包括与所述样本语音中的多个样本语音片段对应的多个样本语音片段特征;利用第一解码器对所述第一样本语音特征进行解码,得到与所述样本语音中的多个字对应的多个第一样本解码结果,所述第一样本解码结果指示对应的字的第一识别结果;基于第一样本先验信息,从所述第一样本语音特征中抽取得到第二样本语音特征,所述第一样本先验信息包括所述多个第一样本解码结果,所述第二样本语音特征包括与所述多个字对应的多个第一样本字级别音频特征;利用第二解码器对所述第二样本语音特征进行解码,得到与所述多个字对应的多个第二样本解码结果,所述第二样本解码结果指示对应的字的第二识别结果;以及基于所述多个字的真实识别结果
、
第一识别结果和第二识别结果,调整所述深度学习模型的参数,以得到训练后的深度学习模型
。17.
一种语音识别装置,包括:语音特征编码模块,被配置为获取待识别语音的第一语音特征,所述第一语音特征包括与所述待识别语音中的多个语音片段对应的多个语音片段特征;第一解码器,被配置为对所述第一语音特征进行解码,得到与所述待识别语音中的多个字对应的多个第一解码结果,所述第一解码结果指示对应的字的第一识别结果;字级别特征抽取模块,被配置为基于第一先验信息,从所述第一语音特征中抽取得到第二语音特征,所述第一先验信息包括所述多个第一解码结果,所述第二语音特征包括与所述多个字对...
【专利技术属性】
技术研发人员:付晓寅,臧启光,盛芬芬,王海峰,贾磊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。