语音活动侦测方法及装置制造方法及图纸

技术编号：17212854 阅读：33 留言：0更新日期：2018-02-07 23:46

语音活动侦测方法及装置，所述语音活动侦测方法包括：将获取的待识别的声音数据划分为多个重叠的帧，并对每个帧进行快速傅立叶变换运算，得到对应的频谱；对所述多个重叠的帧的频谱进行遍历，计算遍历至的当前帧的频谱能量域的香农熵能量；当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时，确定当前帧包括语音信息。上述的方案，可以提高语音识别的速度和准确率。

Method and device for detection of speech activity

Voice activity detection method and device, comprising a voice activity detection method: the voice data to be divided to identify multiple overlapping frames, and the fast Fu Liye transform operation for each frame, the corresponding frequency spectrum; spectrum of the plurality of overlapping frames traverse, Shannon entropy energy spectrum the current frame is calculated to traverse the energy domain of the Shannon energy spectrum entropy; when determining the energy domain of the current frame is greater than the preset threshold value, including voice information of the current frame. The above scheme can improve the speed and accuracy of speech recognition.

全部详细技术资料下载

【技术实现步骤摘要】
语音活动侦测方法及装置
本专利技术涉及语音识别
，特别是涉及一种语音活动侦测方法及装置。
技术介绍
移动终端，是指可以在移动中使用的计算机设备，广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展，移动终端已经拥有了强大的处理能力，移动终端正在从简单的通话工具变为一个综合信息处理平台，这也给移动终端增加了更加宽广的发展空间。但是，移动终端的使用，通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏，用户需要触摸所述触摸屏，以执行相应的操作。但是，用户无法触碰到移动终端设备时，操作移动终端便会变得极其不方便。例如，当用户驾驶车辆或者手中提有物品的时候。语音识别方法和总听系统(AlwaysListeningSystem)的使用，使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时，语音识别系统便会激活，并对检测到的声音信号进行识别，之后，移动终端便会根据所识别出的声音信号执行相应的操作，例如，当用户输入“拨打XX的手机”的语音时，移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别，并在正确识别后，从移动终端中获取XX的手机号码的信息，并拨打。但是，现有技术中语音活动侦测方法，一般采用预设数学模型对输入的声音数据进行语音识别，存在着语音识别速度慢且准确率低的问题。
技术实现思路
本专利技术实施例解决的问题是如何提高语音识别的速度和准确率。为解决上述问题，本专利技术实施例提供了一种语音活动侦测方法，所述语音活动侦测方法包括：将获取的待识别的声音数据划分为多个重叠的帧，并对每个帧进行快速傅立叶...
语音活动侦测方法及装置

【技术保护点】
一种语音活动侦测方法，其特征在于，包括：将获取的待识别的声音数据划分为多个重叠的帧，并对每个帧进行快速傅立叶变换运算，得到对应的频谱；对所述多个重叠的帧的频谱进行遍历，计算遍历至的当前帧的频谱能量域的香农熵能量；当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时，确定当前帧包括语音信息。

【技术特征摘要】
1.一种语音活动侦测方法，其特征在于，包括：将获取的待识别的声音数据划分为多个重叠的帧，并对每个帧进行快速傅立叶变换运算，得到对应的频谱；对所述多个重叠的帧的频谱进行遍历，计算遍历至的当前帧的频谱能量域的香农熵能量；当确定当前帧的频谱能量域的香农熵能量大于预设的阈值时，确定当前帧包括语音信息。2.根据权利要求1所述的语音活动侦测方法，其特征在于，所述计算遍历至的当前帧的频谱能量域的香农熵能量，包括：其中，H(|Y(w,t)|2)表示当前帧t的频谱能量域的香农熵能量，P(|Y(w,t)|2表示当前帧t的幅度谱在对应频段w中的概率，Y(w,t)表示当前帧t对应的频段w的噪音类型，ε表示划分得到的频段的数量。3.根据权利要求1所述的语音活动侦测方法，其特征在于，所述预设的阈值与所述待识别的声音数据的噪音频谱特性相关联。4.根据权利要求1所述的语音活动侦测方法，其特征在于，采用如下方式计算得到所述预设的阈值：基于所述多个重叠的帧的频谱能量域的香农熵，确定对应的两个高斯分布函数；其中，所确定的两个高斯分布函数用于模拟所述多个重叠的帧的频谱能量域的香农熵；采用所确定的高斯分布函数，计算得到所述阈值。5.根据权利要求4所述的语音活动侦测方法，其特征在于，所述确定对应的两个高斯分布函数，包括：采用最大期望值法确定对应的两个高斯分布函数。6.一种语音活动侦测装置，其特征在于，包括：傅立叶变换单元，适...

【专利技术属性】
技术研发人员：孙廷玮，柯逸倩，
申请(专利权)人：展讯通信上海有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人