一种基于机器学习及深度学习的声纹降噪方法及系统技术方案

技术编号:19483203 阅读:95 留言:0更新日期:2018-11-17 10:56
本发明专利技术提供了一种基于机器学习及深度学习的声纹降噪方法及系统。所述方法包括:采集野外地质工作环境下的环境音样品,对深度学习模型进行大量反复训练,获得训练好的深度语音学习模型。获取特定人说话音频,通过深度语音学习模型进行识别,将音频中的环境音过滤,判断过滤后的语音是否合格,得到经过初步筛查的语音,将初步筛查之后的语音与特定人声纹识别模型进行对比提取,进行降噪,判断降噪后的语音是否纯净,对声纹降噪后的语音进行增强,判断语音是否清晰,之后录入到语音输入系统。本发明专利技术能够解决野外地学数据采集时各种嘈杂噪声和环境音干扰情况下导致语音不纯,难以被语音文字识别软件准确识别出文字信息的问题,实现用语音文字识别方式的数据采集,提高野外地学数据采集的效率与准确性。

【技术实现步骤摘要】
一种基于机器学习及深度学习的声纹降噪方法及系统
本专利技术属于语音文字识别及声纹降噪领域,涉及到一种基于机器学习及深度学习的声纹降噪方法及系统。
技术介绍
地学数据采集过程中的智慧化是建设地学大数据中的一个基础环节,在地质生产的实际过程中占据重要地位。其中地质工作者在野外对地质对象观察和描述的调查数据的采集是重要的组成部分。为了支持地质工作者在野外快速采集观测到的地学数据,以往的地学数据采集系统都很重视数据录入的高效性和便捷性,但传统的文字键盘输入方式在野外条件下,效率低下,可操作性差。为了提高数据输入效率,采用了语音录入和文字识别系统,以期提高数据采集效率。使用中发现在野外使用语音录入系统时,可能存在风声、雨声、动物声等,又或是在钻探现场、采矿场或是油气开采环境下,存在着大量运作的机器噪声,这些噪音跟人声音混合在一起,会大大降低当前语音文字识别系统的文字识别正确率,从而导致当前野外地学数据采集语音录入和文字识别的准确率极低。由于这个问题,使得目前的地学数据采集系统在特殊地质工作环境下的操作效率低,可用性差。
技术实现思路
针对上述缺点,急需一种尽可能多地去除掉在野外地质工作环境下语音录入时的环境杂音,为提高后期语音文字识别准确率奠定基础的语音录入降噪处理技术。本专利技术提供了一种基于机器学习及深度学习的声纹降噪方法,用于提野外语音方式采集地学数据时背景噪音大,有效语音难以准确识别的技术难题,包括如下步骤:S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型进行学习,对说话音频中夹杂的环境音进行识别区分;S3、将步骤S2中得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;S4、判断初步筛查的语音信噪比是否达到预设的阈值,若否,则跳转步骤S3,若是,则继续步骤S5;S5、将步骤S4所述语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值,若否,则跳转步骤S5,若是,则继续步骤S7;S7、对步骤S6所述声纹降噪后的语音进行增强;S8、判断经过增强的语音清晰度是否达到预设的阈值,若否,则跳转步骤S7,若是则继续S9;S9、将步骤S8中获得的结果语音输出到语音文字识别系统,完成后续处理。在本专利技术基于机器学习及深度学习的声纹降噪方法中,在步骤S1之前还包括建立机器学习及深度学习模型,具体为,获取大量人说话音频的语音,将语音全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。在本专利技术基于机器学习及深度学习的声纹降噪方法中,在步骤S5之前还包括建立特定说话人的人声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率高的该人的声纹识别模型。根据本专利技术的另一方面,本专利技术为解决其技术问题,提供了一种基于机器学习及深度学习的声纹降噪系统,包含如下模块:初始化模块,用于获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;机器学习及深度学习处理识别模块,用于将初始化模块中获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;语音过滤模块,用于将机器学习及深度学习处理识别模块得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;语音过滤判断模块,用于判断过滤后的语音信噪比是否达到预设的阈值,若否,则跳转语音过滤模块,若是,则继续声纹提取模块;声纹对比提取模块,用于将过滤判断模块中获得的语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;语音纯净度判断模块:用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转声纹提取模块,若是,则进行语音增强模块;语音增强模块,对声纹提取模块中获得的声纹降噪后的语音进行进一步增强;语音清晰度判断模块,用于判断提取的人声纹纯净度是否达到预设的阈值,若否,则跳转语音增强模块,若是,则继续语音录入模块;语音输出模块,将语音增强模块中获得的结果语音输出到语音文字识别系统,完成后续处理。在本专利技术基于机器学习及深度学习的声纹降噪系统中,在初始化模块之前还包含:建立机器学习及深度学习模型,具体为,获取大量人在野外嘈杂环境下的说话音频的语音,将语音全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。在本专利技术所述基于机器学习及深度学习的声纹降噪系统中,在声纹提取模块之前还包括建立特定说话人的声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率较高的该人声纹识别模型;本专利技术采用基于机器学习及深度学习的声纹降噪方法及系统,能够有针对性的解决在特定的多种不同高低信噪比的复杂野外地质环境下,使用普通降噪技术或简单语音降噪算法降噪后降噪率较低的问题,从而为后期的地学数据采集的语音文字识别过程提供良好的先决条件,为降低后期地学数据采集过程中的语音文字识别的难度以及大幅度提升后期通过语音方式地学数据采集过程中的语音文字识别的准确率提供技术保障。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1为本专利技术实施例GMM-UBM建立说话人确认系统声纹建模流程图;图2为本专利技术实施例MFCC特征向量提取流程图;图3为本专利技术实施例声纹识别模型与录入语音对比流程图;图4为本专利技术实施例基于机器学习及深度学习的声纹降噪方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本专利技术进行进一步详细说明。完整流程图参见图1。首先,获取机器学习及深度学习模型,主要分为两个步骤。第一步,建立模型,利用大量获得的野外地学环境下采集的自然环境音以及大量的特定人说话的声音语段建立一个机器学习及深度学习模型;第二步,训练模型,将自然环境及特定人说话音频全部都转换成为波谱图的形式并导入到计算机中,通过大量反复训练,机器学习及深度学习区分环境音和特定人说话的语音波谱图。其次,建立声纹识别模型。每个人独具一格的声纹可以用语谱图观察出来。获取特定说话人的声音声纹,将该人的声纹先进行特征提取操作,用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型。声纹建模方法分为三种类型,分别为:文本相关、文本无关(GMM-UBM、GMM-SVM、GMM-UBM-LFA、i-vector/PLDA)和文本提示。因为不能本文档来自技高网...

【技术保护点】
1.一种基于机器学习及深度学习的声纹降噪方法,其特征在于,包括如下步骤:S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;S3、将步骤S2中得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;S4、判断经过初步筛查的语音信噪比是否达到预设的阈值,若否,则跳转步骤S3,若是,则继续步骤S5;S5、将步骤S4所述语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值,若否,则跳转步骤S5,若是,则继续步骤S7;S7、对步骤S6所述声纹降噪后的语音进行增强;S8、判断经过增强的语音清晰度是否达到预设的阈值,若否,则跳转步骤S7,若是则继续S9;S9、将步骤S8中获得的结果语音输出到语音文字识别系统,完成后续处理。

【技术特征摘要】
1.一种基于机器学习及深度学习的声纹降噪方法,其特征在于,包括如下步骤:S1、获取特定人在野外实地工作环境中对地质现象和地质认识描述的说话音频;S2、将步骤S1获取的所述说话音频通过机器学习及深度学习模型分别进行学习,对说话音频中夹杂的环境音进行识别区分;S3、将步骤S2中得到的识别过的语音进行过滤,剔除掉该语音中不属于所述特定人说话音频的环境音,得到经过初步筛查的语音;S4、判断经过初步筛查的语音信噪比是否达到预设的阈值,若否,则跳转步骤S3,若是,则继续步骤S5;S5、将步骤S4所述语音与该人声纹识别模型进行对比提取,保留与该人声纹识别模型相符合的语音频率及语谱图像,剔除掉与该人声纹识别模型不符合的语音,得到声纹降噪处理的语音;S6、判断声纹降噪处理后的语音中的人声纹纯净度是否达到预设的阈值,若否,则跳转步骤S5,若是,则继续步骤S7;S7、对步骤S6所述声纹降噪后的语音进行增强;S8、判断经过增强的语音清晰度是否达到预设的阈值,若否,则跳转步骤S7,若是则继续S9;S9、将步骤S8中获得的结果语音输出到语音文字识别系统,完成后续处理。2.根据权利要求1所述基于机器学习及深度学习的声纹降噪方法,其特征在于,在步骤S1之前还包括建立机器学习及深度学习模型的步骤,具体为,获取大量人在野外嘈杂环境下的说话音频,将音频全部都转换成为波谱图并导入到计算机中,对机器学习及深度学习模型进行大量反复训练,机器学习及深度学习识别区分人说话音频中夹杂的环境音,从而获得训练好的机器学习及深度学习模型。3.根据权利要求1所述基于机器学习及深度学习的声纹降噪方法,其特征在于,在步骤S5之前还包括建立特定说话人的人声纹识别模型,具体为用已有的该特定说话人的声纹建立声纹语谱图,进行声纹语谱图上的特征提取后便可以建立起只属于该人的声纹识别模型,经过大量该人声纹数据的反复训练,得到一个声纹识别率高的该人的声纹识别模型。4.一种基于机器学习及深度学习的声纹降噪系统,其特征在于,包含如下模块:初始化模块,用于获取特定人在野外实地...

【专利技术属性】
技术研发人员:张夏林朱文尧谢俊李宸王晋赵亚涛夏雪
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1