一种语音信号检测方法与装置制造方法及图纸

技术编号:15705554 阅读:304 留言:0更新日期:2017-06-26 14:19
本申请公开了一种语音信号检测方法与装置,用于解决现有技术中的语音信号检测方法存在的处理速度较慢,且耗费资源较多的问题。该方法包括:获取音频信号;根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧;确定每个短时能量帧的能量;根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号。

Method and device for detecting speech signal

The invention discloses a method and a device for detecting a speech signal, which is used to solve the problems of slower processing speed and more resource consumption in the prior art of speech signal detection method. The method includes: obtaining audio signals; according to the preset voice signal frequency, the audio signal is divided into a plurality of short-time energy frame; short-time energy energy is determined for each frame; each frame according to the short-time energy energy, detecting whether the audio signal contained in the speech signal.

【技术实现步骤摘要】
一种语音信号检测方法与装置
本申请涉及计算机
,尤其涉及一种语音信号检测方法与装置。
技术介绍
在实际生活中,人们会经常使用智能设备(例如智能手机、平板电脑等)来发送语音消息。但是人们在使用智能设备发送语音消息时,往往需要点击智能设备屏幕中的开始或结束按钮,才能够完成语音消息的发送,而这些点击操作,会给用户造成诸多不便。若用户无需点击按钮便可完成语音消息的发送,那么智能设备需要一直进行录音或者按照预设周期进行录音,并判断获取到的音频信号中是否包含语音信号,若包含语音信号,便将该语音信号提取出来,然后进行后续处理并发送出去,这样便完成了语音消息的发送。现有技术中,一般采用双门限方法、基于自相关极大值的检测方法或基于小波变换的检测方法等语音信号检测方法,来检测获取到的音频信号中是否包含语音信号。但是该些方法基本都是通过傅里叶变换等复杂的计算,获取音频信息的频率特征,进而根据该频率特征来确定是否包含语音信号的,需要计算较大缓冲数据,内存占用较高,计算量偏大,处理速度较慢,且耗电量较大。
技术实现思路
本申请实施例提供一种语音信号检测方法与装置,用于解决现有技术中的语音信号检测方法存在的处理速度较慢,且耗费资源较多的问题。本申请实施例采用下述技术方案:一种语音信号检测方法,所述方法包括:获取音频信号;根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧;确定每个短时能量帧的能量;根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号。一种语音信号检测装置,所述装置包括:获取模块,获取音频信号;划分模块,根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧;确定模块,确定每个短时能量帧的能量;检测模块,根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:与现有技术中的通过傅里叶变换等复杂计算来确定音频信号中是否包含语音信号的检测方法相比,本申请实施例采用的语音信号检测方法,无需进行傅里叶变换等复杂计算,通过根据预设语音信号的频率,将获取到的音频信号划分为多个短时能量帧,进而确定出每个短时能量帧的能量,并根据每个短时能量帧的能量,便可检测出获取到的音频信号中是否包含语音信号。因此,本申请实施例提供的语音信号检测方法,能够解决现有技术中的语音信号检测方法存在的处理速度较慢,且耗费资源较多的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种语音信号检测方法的具体流程图;图2为本申请实施例提供的另一种语音信号检测方法的具体流程图;图3为本申请实施例提供的预设时长的音频信号显示图;图4为本申请实施例提供的一种语音信号检测装置的具体结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请实施例提供的技术方案。为了解决现有技术中的语音信号检测方法存在的处理速度较慢,且耗费资源较多的问题,本申请实施例提供一种语音信号检测方法。该方法的执行主体,可以但不限于为手机、平板电脑或个人电脑(PersonalComputer,PC)等用户终端,或者该些用户终端上运行的应用(application,APP),或者,还可以是服务器等设备。为便于描述,下文以该方法的执行主体为APP为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为APP只是一种示例性的说明,并不应理解为对该方法的限定。该方法的具体流程示意图如图1所示,包括下述步骤:步骤101,获取音频信号。上述音频信号,可以为APP通过音频采集设备采集到的音频信号,也可以为APP接收到的音频信号,比如可以是由其他APP或者设备传输的音频信号,本申请实施例对此不进行任何限定。APP在获取到音频信号之后,可以将该音频信号保存在本地。本申请对上述音频信号对应的采样率、时长、格式或声道等也不作任何限制。上述APP可以为任意类型的APP,比如聊天APP或支付APP等,只要该APP可以获取到音频信号,并且可以利用本申请实施例提供的语音信号检测方法对获取到的音频信号进行语音信号的检测即可。步骤102,根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧。上述短时能量帧实际上是步骤101获取到的音频信号中的一部分音频信号。具体的,可以根据预设语音信号的频率,确定出该预设语音信号的周期,按照确定出的周期,将步骤101获取到的音频信号划分为对应的时长均为所述周期的多个短时能量帧。例如,假设该预设语音信号的周期为0.01S,则可根据步骤101获取到的音频信号的时长,将该音频信号划分为若干个时长均为0.01S的短时能量帧。需要说明的是,在划分步骤101获取到的音频信号时,也可以根据实际情况,根据预设语音信号的频率,将该音频信号划分为至少两个短时能量帧。为了后续描述方便,本申请实施例后文中以将音频信号划分为多个短时能量帧为例进行说明。另外,当步骤101中由该APP自身通过音频采集设备采集音频信号时,由于采集音频信号一般是将实际上是模拟信号的音频信号以一定的采样率采集成数字信号,即脉冲编码调制(PulseCodeModulation,PCM)格式的音频信号,因此,还可以根据该音频信号的采样率和预设语音信号的频率,将该音频信号划分为多个短时能量帧。具体的,可确定该音频信号的采样率与预设语音信号的频率的比值m,再根据该比值m,将采集到的数字形式的音频信号中每m个采样点划分为一个短时能量帧。若m为正整数,则可根据m将该音频信号划分为最大数量的短时能量帧;若m不为正整数,则可根据按照四舍五入原则转化为正整数的m,将该音频信号划分为最大数量的短时能量帧。其中,需要特别说明的是,若步骤101获取到的音频信号包含的采样点数量并非为m的整数倍,将该音频信号划分为最大数量的短时能量帧后,可将剩余的采样点丢弃,也可将剩余的采样点也作为一个短时能量帧进行后续处理。其中,上述m,用于表示在一个预设语音信号的周期内,步骤101获取到的音频信号包含的采样点数量。例如,若预设语音信号的频率为82HZ,步骤101获取到的音频信号的时长为1S,采样率为16000HZ,那么m=16000/82=195.1。其中,m不是正整数,将195.1按照四舍五入原则转化成正整数195。根据上述音频信号的时长以及采样率,可以确定出该音频信号包含的采样点数量为16000,那么,由于上述音频信号包含的采样点的数量并非是195的整数倍,因此,可以在将该音频信号划分为82个短时能量帧后,将剩余的10个采样点丢弃。其中,上述每个短时能量帧包含的采样点数量均为195。当步骤101获取到的音频信号是接收到的其他APP或设备传输的音频信号时,可以采用上述任一方法将该音频信号划分为多个短时能量帧。需要特别说明的是,上述音频信号的格式可能并非为本文档来自技高网...
一种语音信号检测方法与装置

【技术保护点】
一种语音信号检测方法,其特征在于,所述方法包括:获取音频信号;根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧;确定每个短时能量帧的能量;根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号。

【技术特征摘要】
1.一种语音信号检测方法,其特征在于,所述方法包括:获取音频信号;根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧;确定每个短时能量帧的能量;根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号。2.如权利要求1所述的方法,其特征在于,获取音频信号,具体包括:获取当前音频信号;在上一次获取到的音频信号中,截取预设时段的子信号;将所述当前音频信号和截取的子信号进行拼接,作为获取到的音频信号。3.如权利要求1所述的方法,其特征在于,根据预设语音信号的频率,将所述音频信号划分为多个短时能量帧,具体包括:根据预设语音信号的频率,确定出所述预设语音信号的周期;按照确定出的周期,将所述音频信号划分为对应的时长均为所述周期的多个短时能量帧。4.如权利要求1所述的方法,其特征在于,根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号,具体包括:确定能量大于预设阈值的短时能量帧的数量占所有短时能量帧总数量的比率;判断所述比率是否大于预设比率;若是,则确定检测到所述音频信号中包含语音信号;若否,则确定未检测到所述音频信号中包含语音信号。5.如权利要求1所述的方法,其特征在于,根据每个短时能量帧的能量,检测所述音频信号中是否包含语音信号,具体包括:确定能量大于预设阈值的短时能量帧的数量占所有短时能量帧总数量的比率;判断所述比率是否大于预设比率;若否,则确定未检测到所述音频信号中包含语音信号;若是,则当能量大于预设阈值的短时能量帧中存在至少N个连续短时能量帧时,确定检测到所述音频信号中包含语音信号,当能量大于预设阈值的短时能...

【专利技术属性】
技术研发人员:焦雷官砚楚曾晓东林锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1