语音识别模型确定方法、语音识别方法及装置、电子设备制造方法及图纸

技术编号:24858659 阅读:45 留言:0更新日期:2020-07-10 19:10
本公开关于一种语音识别模型确定方法、语音识别方法及装置、电子设备,涉及语音识别领域。所述语音识别模型确定方法包括:获取样本语音数据;对样本语音数据进行分帧,对分帧获得的各帧样本语音数据进行特征提取,获得各帧样本语音数据的语音特征;对各帧样本语音数据的语音特征基于音节进行对齐,得到各帧样本语音数据对应的音节标签;采用待训练语音识别模型对各帧样本语音数据的语音特征进行识别,获得各帧样本语音数据对应的预测音节。采用本方法能够提升语音识别的准确性。

【技术实现步骤摘要】
语音识别模型确定方法、语音识别方法及装置、电子设备
本公开涉及语音识别
,尤其涉及一种语音识别模型确定方法、语音识别方法及装置、电子设备。
技术介绍
自动语音识别(AutomaticSpeechRecognition,ASR)是通过算法将人类的语音转化成相应文本的过程。目前的自动语音识别系统中,常用的语音识别模型建模方法有链式建模、连接时序分类等,常用的建模单元是音素或者音素状态。相关技术中,语音识别模型采用音素作为建模单元,并且考虑上下文相关音素,然而,由于音素的持续时间短,受制于协同发音效应,难以对人类语音的长期时间依赖性进行建模,与人类语音感知的匹配度不够高,导致语音识别的准确性较低。
技术实现思路
本公开提供一种语音识别模型确定方法、语音识别方法及装置、电子设备,以至少解决相关技术中语音识别的准确性较低的问题。本公开的技术方案如下:根据本公开实施例的第一方面,提供一种语音识别模型确定方法,包括:获取样本语音数据;对所述样本语音数据进行分帧,对分帧获得的各帧样本语音数据进行本文档来自技高网...

【技术保护点】
1.一种语音识别模型确定方法,其特征在于,包括:/n获取样本语音数据;/n对所述样本语音数据进行分帧,对分帧获得的各帧样本语音数据进行特征提取,获得所述各帧样本语音数据的语音特征;/n对所述各帧样本语音数据的语音特征基于音节进行对齐,得到所述各帧样本语音数据对应的音节标签;/n采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别,获得所述各帧样本语音数据对应的预测音节;/n根据所述各帧样本语音数据对应的预测音节和音节标签,训练所述待训练语音识别模型,得到训练好的语音识别模型。/n

【技术特征摘要】
1.一种语音识别模型确定方法,其特征在于,包括:
获取样本语音数据;
对所述样本语音数据进行分帧,对分帧获得的各帧样本语音数据进行特征提取,获得所述各帧样本语音数据的语音特征;
对所述各帧样本语音数据的语音特征基于音节进行对齐,得到所述各帧样本语音数据对应的音节标签;
采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别,获得所述各帧样本语音数据对应的预测音节;
根据所述各帧样本语音数据对应的预测音节和音节标签,训练所述待训练语音识别模型,得到训练好的语音识别模型。


2.根据权利要求1所述的方法,其特征在于,所述对所述各帧样本语音数据的语音特征基于音节进行对齐,得到所述各帧样本语音数据对应的音节标签,包括:采用隐马尔可夫模型-混合高斯模型对所述各帧样本语音数据的语音特征基于音节进行对齐,得到所述各帧样本语音数据对应的音节标签。


3.根据权利要求2所述的方法,其特征在于,所述隐马尔可夫模型-混合高斯模型的训练过程包括:
获取样本语音数据以及所述样本语音数据对应的音节序列;
对所述样本语音数据进行特征提取,获得所述样本语音数据的语音特征;
采用待训练隐马尔可夫模型-混合高斯模型对所述语音特征基于音节进行对齐,获得所述语音特征对应的音节数据,根据所述语音特征对应的音节数据以及所述音节序列,训练所述待训练隐马尔可夫模型-混合高斯模型,得到训练好的隐马尔可夫模型-混合高斯模型。


4.根据权利要求1所述的方法,其特征在于,所述待训练语言识别模型的结构包括时延神经网络-长短期记忆网络层和归一化层;所述采用待训练语音识别模型对所述各帧样本语音数据的语音特征进行识别,获得所述各帧样本语音数据对应的预测音节,包括:
通过所述时延神经网络-长短期记忆网络层,对所述各帧语音数据的语音特征进行特征抽取,获得所述各帧语音数据的目标特征;
通过所述归一化层对各所述目标特征进行识别,获得所述各帧语音数据对应的预测音节。


5.根据权利要求4所述的方法,其特征在于,所述通过所述时延神经网络-长短期记忆网络层,对所述各帧语音数据的语音特征进行特征抽取,获得所述各帧语音数据的目标特征,包括:
通过所述时延神经网络对当前帧语音数据以及所述当前帧的前后帧语音数据的语音特征进行特征抽取,获得所述当前帧语音数据的中间输出特征;
通过所述长短期记忆网络对所述当前帧语音数据的语音特征以及所述中间输出特征进行特征抽取,获得所述当前帧语音数据的目标特征。

【专利技术属性】
技术研发人员:李杰王晓瑞李岩
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1