【技术实现步骤摘要】
一种基于自适应语音增强的说话人识别方法及装置
本专利技术涉及语音识别
,具体涉及一种基于自适应语音增强的说话人识别方法及装置。
技术介绍
语音信号的质量在一定程度上影响到听话人对说话人的识别和语音内容识别的准确率,在嘈杂的环境中,我们不容易听清周围人的说话内容,也很难根据其声音识别说话人是谁。根据我们日常生活的经验就可知道,当我们听到的语音信号有足够好的信噪比时(也就是信号足够大又不失真),就能较准确地识别说话对象和说话内容;同样的道理,计算机模仿人类的方式进行声纹识别,也存在同样的现象。声纹识别应用在不同条件下,比如有的在同一环境的现场语音拾取,有的是通过电话传输得到的语音,有的是在空旷的露天环境下的语音拾取,有的是在混响严重的室内拾取的,有的是近场拾音(说话者距离麦克风50cm之内),有的是远场拾音(说话者距离麦克风1米开外)。在现实环境中,硬件设备、传送媒介以及环境噪音、以及自身语音在密闭环境中产生的混响等都会影响到语音信号的质量。在说话人识别的
,拾取到的声音质量严重地影响了声纹特征,导致对身份辨 ...
【技术保护点】
1.一种基于自适应语音增强的说话人识别方法,其特征在于,包括:/n对待识别的语音信号进行前级放大、滤波,得到输入信号;/n对输入信号进行A/D变换采样,得到输入信号的数字信号;/n对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;/n对增强信号进行语音活动检测,提取增强信号中的语音段作为待识别语音;/n采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果。/n
【技术特征摘要】
1.一种基于自适应语音增强的说话人识别方法,其特征在于,包括:
对待识别的语音信号进行前级放大、滤波,得到输入信号;
对输入信号进行A/D变换采样,得到输入信号的数字信号;
对所述数字信号进行分帧,对分帧后的数字信号依次进行加窗处理、FFT变换和降噪处理,得到增强信号;
对增强信号进行语音活动检测,提取增强信号中的语音段作为待识别语音;
采用高斯混合优化模型对待识别语音信号进行匹配识别,得出说话人识别结果。
2.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述对输入信号进行A/D变换采样,得到输入信号的数字信号,具体为:
对输入信号进行均匀时间间隔采样,设采样点一共为N个,编号为n的语音采样值为x(n),通过高频预加重处理得到数字信号为y(n)=x(n)-ax(n-1),其中,a表示为权值。
3.根据权利要求2所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述加窗处理具体为:
将分得的每一帧都乘上海明窗函数,海明窗函数表达式为:
W(n,α)=(1-α)-αcos(2*π*n/(N-1)),0≤n≤N-1,α=0.46。
4.根据权利要求1所述的一种基于自适应语音增强的说话人识别方法,其特征在于,所述对增强信号进行语音活动检测,具体为:
采用双门限法检测出增强信号的语音端点。
5.根据...
【专利技术属性】
技术研发人员:杨骏,周春辉,
申请(专利权)人:佛山科学技术学院,佛山磬聆信息技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。