【技术实现步骤摘要】
一种语音识别的前端处理方法、装置及终端设备
本申请属于语音识别
,尤其涉及一种语音识别的前端处理方法、装置及终端设备。
技术介绍
自动语音识别(AutomaticSpeechRecognition,ASR)是将人类的语音中的词汇内容转换为计算机可读的输入,不同于说话人识别或说话人确认。随着深度学习技术的发展与应用,自动语音识别技术有了显著的提高,在日常不同领域中得到广泛的应用。然而,语音信号中存在少量噪声或语音信号发生细微改变时,例如人类语言中的由于心理或生理产生的自然干扰(包括大笑、兴奋、沮丧的不同情绪表达性的语音信号或由不同声音品质产生的附带吱吱声、呼吸声的语音信号),会对自动语音识别的性能产生影响,降低自动语音识别的性能。
技术实现思路
本申请实施例提供了一种语音识别的前端处理方法、装置及终端设备,可以解决人类语言中的由于心理或生理产生的自然干扰,对自动语音识别的性能产生影响,降低自动语音识别的性能的问题。第一方面,本申请实施例提供了一种语音识别的前端处理方法,包括:获 ...
【技术保护点】
1.一种语音识别的前端处理方法,其特征在于,包括:/n获取原始语音信号,对所述原始语音信号按预设格式进行预处理,得到源语音数据;/n对所述源语音数据进行语音特征提取,得到所述源语音数据的第一语音特征参量,所述第一语音特征参量为描述语音音色及韵律的声学特征参量;/n将所述第一语音特征参量输入至语音转换模型,经过转换后输出得到第二语音特征参量,所述第二语音特征参量为目标语音数据的特征参量;/n根据所述第二语音特征参量合成所述目标语音数据,将所述目标语音数据作为语音识别模型的输入,以进行语音识别。/n
【技术特征摘要】
1.一种语音识别的前端处理方法,其特征在于,包括:
获取原始语音信号,对所述原始语音信号按预设格式进行预处理,得到源语音数据;
对所述源语音数据进行语音特征提取,得到所述源语音数据的第一语音特征参量,所述第一语音特征参量为描述语音音色及韵律的声学特征参量;
将所述第一语音特征参量输入至语音转换模型,经过转换后输出得到第二语音特征参量,所述第二语音特征参量为目标语音数据的特征参量;
根据所述第二语音特征参量合成所述目标语音数据,将所述目标语音数据作为语音识别模型的输入,以进行语音识别。
2.如权利要求1所述的语音识别的前端处理方法,其特征在于,获取原始语音信号,对所述原始语音信号按预设格式进行预处理,得到源语音数据,包括:
对所述原始语音信号进行滤波处理;
对滤波处理后的语音信号进行周期性采样,获取预设频率的语音采样数据;
对所述语音采样数据进行加窗及分帧处理,得到所述源语音数据。
3.如权利要求1所述的语音识别的前端处理方法,其特征在于,对所述源语音数据进行语音特征提取,得到所述源语音数据的第一语音特征参量,包括:
通过梅尔滤波器组提取所述源语音数据的梅尔频谱特征参量、对数基频特征参量及非周期分量特征参量;
获取所述源语音数据的梅尔频谱特征参量、对数基频特征参量及非周期分量特征参量对应的参量分布。
4.如权利要求1所述的语音识别的前端处理方法,其特征在于,所述语音转换模型的训练步骤,包括:
获取语音样本训练数据集中的随机样本与实际样本,分别提取所述随机样本的随机样本特征参量分布以及实际样本的实际样本特征参量分布;
根据所述随机样本特征参量分布及所述实际样本特征参量分布,对待训练的对抗网络模型进行迭代训练;
根据预设损失函数,计算所述对抗网络模型在迭代训练过程中输出的误差;
当误差小于或等于预设误差阈值时,停止训练,得到所述语音转换模型。
5.如权利要求4所述的语音识别的前端处理方法,其特征在于,根据所述随机样本特征参量分布及所述实际样本特征参量分布,对所述待训练的对抗网络进行迭代训练,包括:
将所述随机样本特征参量分布输入至待训练的对抗网络模型的生成器网络,生成与实际样本特征参量分布对应的伪样本特征参量分布;
通过待训练的对抗网络模型的鉴别器网络,对所述伪样本特征参量分布与所述实际样本特征参量分布进行鉴别,得到鉴别结果特征分布;
将所述鉴别结果特征分布再...
【专利技术属性】
技术研发人员:王健宗,贾雪丽,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。