【技术实现步骤摘要】
识别模型构建方法、语音识别方法、电子设备及存储介质
本专利技术属于人工智能
,尤其涉及一种识别模型构建方法、语音识别方法、电子设备及存储介质。
技术介绍
目前现有的识别模型主要依据的是语音的频域特征,没有考虑到语音的一些口音特征,这使得一些对一些发音不标准的语音识别时,准确率较低。另外,以中国汉语为例,汉语以方言分为普通话、赣语、闽语、粤语、客家话、吴语、湘语等等,这导致各个地方在讲普通话时都带有各自的口音,这些带口音的普通话,以目前的语音识别技术识别时,准确率不高。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种识别模型构建方法及语音识别方法,通过将语音的口音特征加入到语音识别中,对带口音的语音能够具有很高的识别率。本专利技术第一方面公开了一种识别模型构建方法,包括以下步骤:获取口音提取器,所述口音提取器用于提取语音中的口音特征;获取不同口音的普通话语料;利用口音提取器提取所述普通话语料的口音特征;将普通话语料的口音特征和频 ...
【技术保护点】
1.一种识别模型构建方法,其特征在于,包括以下步骤:/n获取口音提取器,所述口音提取器用于提取语音中的口音特征;/n获取不同口音的普通话语料;/n利用口音提取器提取所述普通话语料的口音特征;/n将普通话语料的口音特征和频域特征输入初始识别模型,对所述初始识别模型进行训练,得到识别模型。/n
【技术特征摘要】
1.一种识别模型构建方法,其特征在于,包括以下步骤:
获取口音提取器,所述口音提取器用于提取语音中的口音特征;
获取不同口音的普通话语料;
利用口音提取器提取所述普通话语料的口音特征;
将普通话语料的口音特征和频域特征输入初始识别模型,对所述初始识别模型进行训练,得到识别模型。
2.如权利要求1所述识别模型构建方法,其特征在于,所述获取口音提取器,包括:
获取不同口音的任意语料;
利用所述任意语料的频域特征对时间延迟神经网络模型进行训练,得到口音提取器。
3.如权利要求2所述识别模型构建方法,其特征在于,所述对时间延迟神经网络模型进行训练,包括:
步骤a、选择一部分任意语料的频域特征数据输入时间延迟神经网络模型;
步骤b、通过前向传播演算法获取时间延迟神经网络模型的口音特征预测值;
步骤c、判断所述口音特征预测值与口音特征真实值是否达到最小化交叉熵;
若是,则训练结束,输出当前时间延迟神经网络模型,若否,则进入下一步;
步骤d、通过反向传播演算法更新时间延迟神经网络模型的参数;
步骤e、判断时间延迟神经网络模型是否收敛;若是,则训练结束,输出当前时间延迟神经网络模型,若否,则进入下一步;
步骤f、选择下一部分任意语料的频域特征数据输入时间延迟神经网络模型;然后执行步骤b—步骤e。
4.如权利要求2或3所述识别模型构建方法,其特征在于,所述任意语料的频域特征包括将所述任意语料的语音经过傅里叶变换,再通过梅尔滤波器产生的梅尔频率倒谱系数特征。
5.如权利要求...
【专利技术属性】
技术研发人员:简仁贤,许曜麒,林长洲,
申请(专利权)人:竹间智能科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。