【技术实现步骤摘要】
一种面向边缘设备的语音识别-合成联合的建模方法
本专利技术属于边缘计算、音频研究
,涉及边缘服务器、语音增强、语音识别、语音合成,神经网络,具体涉及一种面向边缘设备的语音识别-合成联合的建模方法。
技术介绍
工业4.0之后,人工智能、物联网(IoT)的飞速崛起,为人类衣食住行等方面的便利性提供了巨大的潜力,许许多多的智能产品应运而生。与此同时,近年来随着边缘计算的发展,边缘计算策略可以有效的实现大任务计算量的分配,解决实时性问题,提高模型的推算能力。因此,更加是为不断强化扩充智能产品的功能提供了无限的可能性。随着神经网络、深度学习的不断发展,带动了与之相关研究的重大突破。其中,最明显的就数语音领域和图像领域了。近年来,在NLP语音识别领域,语音处理技术,语音识别,语音合成等飞速发展,取得了瞩目的成功。但是仍然存在一些技术性的问题有待优化研究,例如:机器处理实时性、智能应用鲁棒性、对象的综合特性等都是需要不断优化研究的问题。通过利用“听写大会”微信小程序对一些中国方言数据进行测试,发现其中一些待测模型的识别效果不 ...
【技术保护点】
1.一种面向边缘设备的语音识别-合成联合的建模方法,其特征在于,包括以下步骤:/n1)采集数据集样本:/n采集各种各样的环境的音频数据,分a类安静环境下的干净音频,b类不同种类的噪音音频,b类不同种类的噪音音频参照noise噪声库;/n2)进行数据处理:/n做噪声融合处理,将噪声加入到干净的音频中,打包组装成干净的音频数据和对应的加噪音频数据;/n3)搭建边缘服务器:/n搭建稳定的边缘服务器设备,实现稳定的上传下载接口;算法处理语音增强模块,采用谱减法、小波硬阈值、gan网络模型结合语音识别引擎采用一个投票法取得最优值,以此作为音频前处理的优化手段,在该层设备上做音频前端处 ...
【技术特征摘要】
1.一种面向边缘设备的语音识别-合成联合的建模方法,其特征在于,包括以下步骤:
1)采集数据集样本:
采集各种各样的环境的音频数据,分a类安静环境下的干净音频,b类不同种类的噪音音频,b类不同种类的噪音音频参照noise噪声库;
2)进行数据处理:
做噪声融合处理,将噪声加入到干净的音频中,打包组装成干净的音频数据和对应的加噪音频数据;
3)搭建边缘服务器:
搭建稳定的边缘服务器设备,实现稳定的上传下载接口;算法处理语音增强模块,采用谱减法、小波硬阈值、gan网络模型结合语音识别引擎采用一个投票法取得最优值,以此作为音频前处理的优化手段,在该层设备上做音频前端处理进行去混响,降噪声,噪音分离等,利用小波,谱减,神经网络模型融合处理筛选对应噪声的最优模型,应用投票法处理音频挑选出处理对应音频质量较高的模型方法;
搭建中文方言语音识别模型:
采用基于cnn+rnn的基础模型架构,表现在利用cnn技术进行语音特征MFCC提取之后的二次特征处理,将音频语谱图作为输入特征,将提取的语谱图特征向量与MFCC特征向量进行归一化处理;搭建中文方言语音合成模型,基于wavenet的改进模型,为多维度交叉融合提供接口;联合语音识别模型和语音合成模型部署在上层云端,接收边缘层的处理结果作为输入来源;
5)将步骤3)的数据在搭建好的边缘服务层设备进行首次处理,通过语音增强手段进行音频前处理,提高音频的机器可懂度,提取语音样本集的特征并将其通过4)所述的中文方言语音识别模型,得到正样本T1,其准确率acc1,负样本F1,其准确率acc2,将T1,F1分别输入到4)所述的中文方言语音合成模型,合成音频的输出结果与7)的输入对应有四种,分别是T11,T12,F21,F22;其中T11代表语音识别结果为正样本,语音合成结果为正样本;T12表示语音识别结果为正样本语音合成结果为负;F21表示语音识别结果为负,合成结果为正;F22表示语音识别和合成的结果均为负;
6)按照正确样本的比例评估对应特征的优势占比,将优势的特征表现集合筛选出来,作为阶段性模型特征,...
【专利技术属性】
技术研发人员:王海,秦晨光,张晓,刘艺,赵子鑫,高岭,任杰,郑杰,
申请(专利权)人:西北大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。