语音活动侦测方法及装置制造方法及图纸

技术编号:17212854 阅读:33 留言:0更新日期:2018-02-07 23:46
语音活动侦测方法及装置,所述语音活动侦测方法包括:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。上述的方案,可以提高语音识别的速度和准确率。

Method and device for detection of speech activity

Voice activity detection method and device, comprising a voice activity detection method: the voice data to be divided to identify multiple overlapping frames, and the fast Fu Liye transform operation for each frame, the corresponding frequency spectrum; spectrum of the plurality of overlapping frames traverse, Shannon entropy energy spectrum the current frame is calculated to traverse the energy domain of the Shannon energy spectrum entropy; when determining the energy domain of the current frame is greater than the preset threshold value, including voice information of the current frame. The above scheme can improve the speed and accuracy of speech recognition.

【技术实现步骤摘要】
语音活动侦测方法及装置
本专利技术涉及语音识别
,特别是涉及一种语音活动侦测方法及装置。
技术介绍
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便。例如,当用户驾驶车辆或者手中提有物品的时候。语音识别方法和总听系统(AlwaysListeningSystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取XX的手机号码的信息,并拨打。但是,现有技术中语音活动侦测方法,一般采用预设数学模型对输入的声音数据进行语音识别,存在着语音识别速度慢且准确率低的问题。
技术实现思路
本专利技术实施例解决的问题是如何提高语音识别的速度和准确率。为解决上述问题,本专利技术实施例提供了一种语音活动侦测方法,所述语音活动侦测方法包括:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。可选地,所述计算遍历至的当前帧的频谱能量域的香农熵能量,包括:其中,H(|Y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,P(|Y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,Y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。可选地,所述预设的阈值与所述待识别的声音数据的噪音频谱特性相关联。可选地,采用如下方式计算得到所述预设的阈值:基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。可选地,所述确定对应的两个高斯分布函数,包括:采用最大期望值法确定对应的两个高斯分布函数。本专利技术实施例还提供了一种语音活动侦测装置,所述装置包括:傅立叶变换单元,适于将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;第一计算单元,适于对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;判断单元,适于判断当前帧的频谱能量域的香农熵能量是否大于预设的阈值;确定单元,适于当确定当前帧的频谱能量域的香农熵能量大于所述阈值时,确定当前帧包括语音信息。可选地,所述第一计算单元适于采用如下的公式计算遍历至的当前帧的频谱能量域的香农熵能量:其中,H(|Y(w,t)|2)表示当前帧的频谱能量域的香农熵能量,P(|Y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,Y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。可选地,所述预设的阈值与当前待识别的声音数据对应的噪音的频谱特性相关联。可选地,所述装置还包括:第二计算单元,适于基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。可选地,所述第二计算单元,适于采用最大期望值法确定对应的两个高斯分布函数。与现有技术相比,本专利技术的技术方案具有以下的优点:上述的方案,根据待识别的声音数据划分得到的多个重叠的帧对应的频谱能量域的香农熵能量与预设的阈值之间的比较结果,来确定各个帧中是否包括语音信息,因相对于仅包括噪音信息的帧的频谱能量域的香农熵能量,包括语音信息的帧的频谱能量域的香农熵能量更具有规律性,通过频谱能量域的香农熵便可以准确地识别出各个帧是否包括语音信息,因而可以提高语音活动侦测的准确性,且因各个帧的频谱能量域的香农熵能量的计算与建立语音识别的数学模型相比更加简单,因而可以节省计算资源,提高语音活动侦测的速度。附图说明图1是本专利技术实施例中的一种语音活动侦测方法的流程图;图2是本专利技术实施例中的另一种语音活动侦测方法的流程图;图3是本专利技术实施例中的一种语音活动侦测装置的结构示意图。具体实施方式现有技术中的一种语音活动侦测(VoiceActivityDetection,VAD)方法,通过将遍历到的当前声音帧的频谱划分为无重叠的多个子带;根据当前声音帧的多个子带的频谱能量,计算得到当前声音帧的能量均方根;当确定当前声音帧的能量均方根大于预设的阈值时,确定当前声音帧中包括语音信息。上述的VAD方法可以在噪音变化的速度小于语音追踪能力,且语音片段的能量水平高于噪音片段的能量水平时,可以获取较好的性能。但是,当上述情况发生变化时,存在着语音检测准确性低的问题。为解决现有技术中存在的上述问题,本专利技术实施例采用的技术方案通过将当前声音帧的能量均方根与对应的阈值进行比较,来确定当前声音帧中是否包括语音信息,可以提高语音活动侦测的准确性,并提高语音活动侦测的速度。为使本专利技术的上述目的、特征和优点能够更为明显易懂,下面结合附图对本专利技术的具体实施例做详细的说明。图1示出了本专利技术实施例中的一种语音识别方法的流程图。如图1所示的语音识别方法,可以包括如下步骤:步骤S101:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算得到对应的频谱。在具体实施中,在将待识别的声音数据进行划分时,得到的重叠的帧的个数,以及相邻帧之间的重叠部分可以根据实际的需要进行设置。步骤S102:对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量。在具体实施中,可以按照对应的时间顺序对划分得到的多个重叠的帧对应的频谱进行遍历。步骤S103:当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。在具体实施中,当计算得到各个帧对应的频谱能量域的香农熵能量时,可以将计算得到的频谱能量域的香农熵能量与预设的阈值进行比较,以判断各个帧的频谱能量域的香农熵能量是否大于预设的阈值。其中,当确定对应的频谱能量域的香农熵能量大于预设的阈值时,确定该帧中包括语音信息;反之,则确定该帧中不包括语音信息。下面将结合图2对本专利技术实施例中的语音识别方法做进一步详细的介绍。图2示出了本专利技术实施例中的另一种语音识别方法的流程图。如图2所示的语音识别方法,可以包括如下的步骤:步骤S201:将获取的声音数据进行重叠分帧,得到对应的多个重叠的帧。在具体实施中,首先可以对所采集的声音信号进行模数转换,得到对应的声音数据。接着,可以将对应的声音数据进行重叠分帧,得到对应的多本文档来自技高网...
语音活动侦测方法及装置

【技术保护点】
一种语音活动侦测方法,其特征在于,包括:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。

【技术特征摘要】
1.一种语音活动侦测方法,其特征在于,包括:将获取的待识别的声音数据划分为多个重叠的帧,并对每个帧进行快速傅立叶变换运算,得到对应的频谱;对所述多个重叠的帧的频谱进行遍历,计算遍历至的当前帧的频谱能量域的香农熵能量;当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时,确定当前帧包括语音信息。2.根据权利要求1所述的语音活动侦测方法,其特征在于,所述计算遍历至的当前帧的频谱能量域的香农熵能量,包括:其中,H(|Y(w,t)|2)表示当前帧t的频谱能量域的香农熵能量,P(|Y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率,Y(w,t)表示当前帧t对应的频段w的噪音类型,ε表示划分得到的频段的数量。3.根据权利要求1所述的语音活动侦测方法,其特征在于,所述预设的阈值与所述待识别的声音数据的噪音频谱特性相关联。4.根据权利要求1所述的语音活动侦测方法,其特征在于,采用如下方式计算得到所述预设的阈值:基于所述多个重叠的帧的频谱能量域的香农熵,确定对应的两个高斯分布函数;其中,所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵;采用所确定的高斯分布函数,计算得到所述阈值。5.根据权利要求4所述的语音活动侦测方法,其特征在于,所述确定对应的两个高斯分布函数,包括:采用最大期望值法确定对应的两个高斯分布函数。6.一种语音活动侦测装置,其特征在于,包括:傅立叶变换单元,适...

【专利技术属性】
技术研发人员:孙廷玮柯逸倩
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1