有效语音识别方法及系统技术方案

技术编号:11371469 阅读:87 留言:0更新日期:2015-04-30 04:42
有效语音识别方法及系统,方法包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为有效语音;以及步骤F:判定当前语音帧为非语音。上述发明专利技术实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。

【技术实现步骤摘要】
有效语音识别方法及系统
本专利技术涉及一种有效语音识别方法及系统。
技术介绍
传统识别有效语音的方法一般基于能量大小、过零率、自相关等原理,其需连续对若干语音数据帧综合作出判决,这些方法在固定的场景下有较好识别效果,但对于非固定场景及场景频繁切换时,如安静环境到办公室吵杂环境、公交内、工地等等,实时识别效果差,且有效语音的识别率会大幅降低。
技术实现思路
针对现有技术的不足,本专利技术旨在于提供一种可解决上述技术问题的有效语音识别方法及系统。为实现上述目的,本专利技术采用如下技术方案:一种有效语音识别方法,其包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为有效语音;以及步骤F:判定当前语音帧为非语音。优选地,步骤A包括以下子步骤:步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;步骤A2:获取该语音频域的各频谱处的能量;以及步骤A3:根据各频谱处的能量统计语音频谱分布。优选地,步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公优选地,步骤B包括以下子步骤:步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1],Ei指第i个频谱能量;以及步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。一种有效语音识别系统,其包括以下模块:模块A:实时获取当前语音帧的语音频谱分布;模块B:实时获取当前语音帧的短时能量和长时能量;模块C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及模块D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行模块E;若否,执行模块F;模块E:判定当前语音帧为有效语音;以及模块F:判定当前语音帧为非语音。优选地,模块A包括以下子模块:模块A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;模块A2:获取该语音频域的各频谱处的能量;以及模块A3:根据各频谱处的能量统计语音频谱分布。优选地,模块A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号。模块A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);模块A3根据公式III和各频谱处的能量统计语音频谱分布p,公优选地,模块B包括以下子模块:模块B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量;以及模块B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。优选地,模块C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。本专利技术的有益效果至少如下:上述专利技术实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。附图说明图1为本专利技术有效语音识别方法的较佳实施方式的流程图。具体实施方式下面将结合附图以及具体实施方式,对本专利技术做进一步描述:请参见图1,本专利技术涉及一种有效语音识别方法,其较佳实施方式包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;本实施例中,步骤A包括以下子步骤:步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;优选地,根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号。步骤A2:获取该语音频域的各频谱处的能量;优选地,根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);步骤A3:根据各频谱处的能量统计语音频谱分布;优选地,根据公式III和各频谱处的能量统计语音频谱分布p,步骤B:实时获取当前语音帧的长时能量和短时能量;本实施例中,步骤B包括以下子步骤:步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1],Ei指第i个频谱能量。步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;优选地,步骤C根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数。步骤D:判断语音类似度γ是否大于预设的语音类似度阈值,若是,执行步骤E,若否,执行步骤F。其中,语音类似度阈值可为基于经验或仿真的固定门限值。步骤E:判定当前语音帧为有效语音。步骤F:判定当前语音帧为非语音,即为噪音和杂声之类。上述专利技术实时获取每一语音帧的语音频谱分布和能量变化,并根据语音频谱分布和能量变化快速识别出有效语音,无需像传统方法那样结合多帧才能综合判断,故,即使所应用的场景频繁切换也能可靠快速地识别。上述公式涉及的N均指样点个数。对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及变形,而所有的这些改变以及变形都应该属于本专利技术权利要求的保护范围之内。本文档来自技高网...

【技术保护点】
一种有效语音识别方法,其特征在于:其包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为有效语音;以及步骤F:判定当前语音帧为非语音。

【技术特征摘要】
1.一种有效语音识别方法,其特征在于:其包括以下步骤:步骤A:实时获取当前语音帧的语音频谱分布;步骤B:实时获取当前语音帧的短时能量和长时能量;步骤B包括以下子步骤:步骤B1:根据公式IV计算该语音频域的短时能量Es,公式IV为i∈(0,N),b为滤波器更新系数,取值范围为[0,1];以及步骤B2:根据公式V计算该语音频域的长时能量El,公式V为i∈(0,N),a为滤波器更新系数,取值范围[0,1];步骤C:根据语音频谱分布、长时能量和短时能量获取语音类似度;具体为根据公式VI、语音频谱分布p、长时能量El和短时能量Es计算语音类似度γ,公式VI为c为常数,取值范围为[0,1];e为自然指数;以及步骤D:判断语音类似度是否大于预设的语音类似度阈值,若是,执行步骤E;若否,执行步骤F;步骤E:判定当前语音帧为有效语音;以及步骤F:判定当前语音帧为非语音。2.如权利要求1所述的有效语音识别方法,其特征在于:步骤A包括以下子步骤:步骤A1:实时根据傅里叶变换将当前的语音帧变换为语音频域;步骤A2:获取该语音频域的各频谱处的能量;以及步骤A3:根据各频谱处的能量统计语音频谱分布。3.如权利要求2所述的有效语音识别方法,其特征在于:步骤A1根据公式I将当前的语音换到语音频域X(k),公式I为X(k)=FFT(x(j)),j∈(0,N)为时域样点序号,k∈(0,N)为频域样点序号;步骤A2根据公式II计算该语音频域的各频谱处的能量E(k),公式II为E(k)=|X(k)|^2,k∈(0,N);步骤A3根据公式III和各频谱处的能量统计语音频谱分布p,公式III为其中,ωi为固定值,对应各子频带权重系数。4.一种有效语音识别系统...

【专利技术属性】
技术研发人员:付姝华
申请(专利权)人:深圳市云之讯网络技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1