【技术实现步骤摘要】
基于场景分类的语音降噪方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种基于场景分类的语音降噪方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]随着人工智能的快速发展,智能语音识别技术应用广泛,例如:智能手机、无线耳机、智能机器人、车载设备等电子设备或系统中,均需要采用智能语音识别技术准确识别用户输入的语音。但是,由于环境噪声和其他设备信号的干扰,输入语音中含有噪声,影响了语音识别的准确度。
[0003]现有的语音识别中降噪方法会去除场景中的全部噪声只保留人声,通常采用固定的模型(参数)结合短时信号特性,这个短时特性一般是若干帧级别,或者秒一级的信息。一般初始模型(参数)只有一组,降低了语音降噪的准确性和灵活性;另一方面短时特性描述的信息涉及的时长很短,针对不同场景的准确性存在统计特性不一致的风险。进而导致后续语音处理识别的准确性也不高。
技术实现思路
[0004]本专利技术提供一种基于场景分类的语音降噪方法、装置及计算机可读存储介质,其主要目的在于提 ...
【技术保护点】
【技术特征摘要】
1.一种基于场景分类的语音降噪方法,其特征在于,所述方法包括:获取设备采集的含噪声语音信号;利用预先训练的噪声分类模型对所述含噪声语音信号中噪声按场景进行分类,得到所述噪声的初始分类结果;根据噪声功率对所述噪声的初始分类结果进行二次分类,得到所述噪声包含的噪声类型;根据所述噪声类型自适应选择预先训练的降噪模型,通过所述降噪模型对所述含噪声语音信号进行降噪处理,得到降噪后的语音信号。2.如权利要求1所述的基于场景分类的语音降噪方法,其特征在于,所述利用预先训练的噪声分类模型对所述含噪声语音信号中噪声按场景进行分类之前,所述方法还包括:获取预设噪声库N种类型的噪声作为样本集,将所述样本集中每种类型的噪声按预设的比例划分为训练集和测试集,其中所述N为大于1的自然数;根据预设场景的噪声编号,对所述训练集及所述测试集的噪声类型进行标记,得到所述训练集及测试集中每种噪声对应的真实类型标签值;利用所述初始噪声分类模型中的卷积层,提取所述训练集的噪声信号特征图;利用所述初始噪声分类模型中的池化层,对所述噪声信号特征图进行降维处理,得到压缩后的噪声信号特征图;利用所述初始噪声分类模型中的批标准化层对所述压缩后的噪声信号特征图进行归一化处理,得到标准化的噪声信号特征图;利用所述初始噪声分类模型中的softmax层对于所述标准化的噪声信号特征图进行分类,得到所述训练集中噪声的预测类型标签值;利用预设的损失函数计算所述预测类型标签值与所述真实类型标签值之间的损失值,根据所述损失值对所述初始噪声分类模型进行参数调整,直至所述损失值小于预设的损失阈值,得到初步训练完成的噪声分类模型;利用所述测试集对所述初步训练完成的噪声分类模型进行测试处理,当所述测试未通过时,再次训练所述噪声分类模型,直至测试通过,得到训练完成的噪声分类模型。3.如权利要求1所述的基于场景分类的语音降噪方法,其特征在于,所述利用预先训练的噪声分类模型对所述含噪声语音信号中噪声按场景进行分类,得到所述噪声的初始分类结果,包括:利用语音活动度检测算法检测到所述含噪声语音信号中包含非语音段时,提取连续M帧的非语音段,得到所述含噪声语音信号中的噪声段,其中所述M为大于1的自然数;利用预先训练的噪声分类模型对所述噪声段按场景进行分类,得到所述噪声的初始分类结果。4.如权利要求3所述的基于场景分类的语音降噪方法,其特征在于,所述根据噪声功率对所述噪声的初始分类结果进行二次分类,得到所述噪声包含的噪声类型,包括:对所述含噪声语音信号中噪声段进行预处理,并将预处理后的噪声段进行傅里叶变换得到噪声段的频域信号;基于最小值搜索法对所述频域信号进行噪声功率谱估计,得到噪声功率谱;根据所述噪声功率谱中信号功率分布情况的相似度,对所述噪声的初始分类结果进行
二次分类,得到所述噪...
【专利技术属性】
技术研发人员:汪雪,王昕,蒋志燕,陈诚,
申请(专利权)人:深圳市北科瑞声科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。