语音检测方法和装置制造方法及图纸

技术编号:16477624 阅读:52 留言:0更新日期:2017-10-31 07:26
本发明专利技术公开了一种语音检测方法和装置。其中,该方法包括:将待检测的音频信号划分为多个音频段;提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;根据音频段的音频特征从音频段中检测出目标语音段。本发明专利技术解决了由于采用现有的语音检测方法所导致的语音检测的准确率较低的技术问题。

Voice detection method and device

The invention discloses a speech detection method and device. Among them, the method includes: detecting the audio signal will be divided into multiple audio segments; extraction of audio features, each audio segment in which audio features include at least the characteristics of audio segment feature in time domain and frequency domain; according to the audio features of the audio from the audio segments detected in the target language segment. The invention solves the technical problem that the accuracy of the voice detection caused by the existing voice detection method is low.

【技术实现步骤摘要】

本专利技术涉及计算机领域,具体而言,涉及一种语音检测方法和装置
技术介绍
目前,为了简化操作,改善用户体验,在很多领域都开始应用语音信号实现控制。例如,将语音信号作为语音输入密码。但在现有技术中,对语音信号所采用的语音检测方式通常是对输入信号进行单个特征提取,这样提取到的单个特征,往往对噪声较为敏感,无法准确区分干扰声音和语音信号,从而导致语音检测的准确率下降。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音检测方法和装置,以至少解决由于采用现有的语音检测方法所导致的语音检测的准确率较低的技术问题。根据本专利技术实施例的一个方面,提供了一种语音检测方法,包括:将待检测的音频信号划分为多个音频段;提取每个上述音频段中的音频特征,其中,上述音频特征至少包括上述音频段的时域特征及频域特征;根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。根据本专利技术实施例的另一方面,还提供了一种语音检测装置,包括:划分单元,用于将待检测的音频信号划分为多个音频段;提取单元,用于提取每个上述音频段中的音频特征,其中,上述音频特征至少包括上述音频段的时域特征及频域特征;检测单元,用于根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。在本专利技术实施例中,通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高检测语音准确率的目的,进而克服现有技术中仅通过单个特征来检测语音方式所导致的检测准确率较低的问题。进一步,在准确检测出目标语音段的同时,还可以使人机交互设备快速实时地判断出由目标语音段构成的语音段的起始时刻及终止时刻,从而实现人机交互设备对检测出的语音进行准确实时地反应,达到人机自然交互的效果。此外,人机交互设备通过准确检测出目标语音段构成的语音段的起始时刻及终止时刻,还将实现提高人机交互效率的效果,进而克服现有技术中由交互人员通过按下控制按钮来触发启动人机交互过程所导致的人机交互效率较低的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的语音检测法的应用环境示意图;图2是根据本专利技术实施例的另一种可选的语音检测方法的应用环境示意图;图3是根据本专利技术实施例的一种可选的语音检测方法的流程示意图;图4是根据本专利技术实施例的一种可选的语音检测方法的波形示意图;图5是根据本专利技术实施例的另一种可选的语音检测方法的波形示意图;图6是根据本专利技术实施例的又一种可选的语音检测方法的波形示意图;图7是根据本专利技术实施例的又一种可选的语音检测方法的波形示意图;图8是根据本专利技术实施例的又一种可选的语音检测方法的波形示意图;图9是根据本专利技术实施例的另一种可选的语音检测方法的流程示意图;图10是根据本专利技术实施例的一种可选的语音检测装置的示意图;以及图11是根据本专利技术实施例的一种可选的语音检测设备的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种上述语音检测方法的实施例。可选地,在本实施例中,该语音检测方法可以但不限于应用于如图1所示的应用环境中。通过终端102获取待检测的音频信号,将该待检测的音频信号通过网络104发送给服务器106,服务器106将待检测的音频信号划分为多个音频段;提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;并根据音频段的音频特征从音频段中检测出目标语音段。通过融合音频段在时频和频域中多个特征,利用各个特征的互补性,以实现从音频信号的多个音频段中准确检测出目标语音段,从而保证由目标语音段构成的语音段被检测出的准确率。可选地,在本实施例中,上述语音检测方法还可以但不限于应用于如图2所示的应用环境中。也就是说,在终端102获取到待检测的音频信号后,由终端102来执行上述语音检测方法中对音频段的检测过程,具体过程可以如上,这里不再赘述。需要说明的是,在本实施例中,图1-2所示的终端仅为一种示例。可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他人机交互设备。上述只是一种示例,本实施例对此不做任何限定。可选地,在本实施例中,上述网络可以包括但不限于以下至少之一:广域网、城域网、局域网。上述只是一种示例,本实施例对此不做任何限定。根据本专利技术实施例,提供了一种语音检测方法,如图3所示,该方法包括:S302,将待检测的音频信号划分为多个音频段;S304,提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征;S306,根据音频段的音频特征从音频段中检测出目标语音段。可选地,在本实施例中,上述语音检测方法可以但不限于应用于以下至少一种场景中:智能机器人聊天系统、自动问答系统、人机聊天软件等。也就是说,将本实施例中所提供的语音检测方法应用于人机交互过程中,通过提取音频段中至少包括音频段的时域特征及频域特征的音频特征,来准确检测出对待检测的音频信号中所划分的多个音频段中的目标语音段,从而使用于人机交互的设备可以获知由目标语音段构成的语音段的起始时刻及终止时刻,以便于设备在获取所要表达的完整的语音信息后再进行准确答复。这里,在本实施例中,上述语音段可以包括但不限于:一个目标语音段或连续多个目标语音段。其中,每一个目标语音段包括该目标语音段的起始时刻及终止时刻。本实施例中对此不做任何限定。需要说明的是,在本实施例中,人机交互设备通过将待检测的音频信号划分为多个音频段,并提取每个音频段中的音频特征,其中,音频特征至少包括音频段的时域特征及频域特征,从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段,以降低音频段中的噪声信号对语音检测过程的干扰,达到提高语音检测的准确率的目的,进而克服现有技术中仅通过单个特征来检测语音的方式所导致的检测准确率较低的问题。进一步,在准确检测出目标语本文档来自技高网
...
语音检测方法和装置

【技术保护点】
一种语音检测方法,其特征在于,包括:将待检测的音频信号划分为多个音频段;提取每个所述音频段中的音频特征,其中,所述音频特征至少包括所述音频段的时域特征及频域特征;根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。

【技术特征摘要】
1.一种语音检测方法,其特征在于,包括:将待检测的音频信号划分为多个音频段;提取每个所述音频段中的音频特征,其中,所述音频特征至少包括所述音频段的时域特征及频域特征;根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。2.根据权利要求1所述的方法,其特征在于,根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括:判断当前音频段的音频特征是否满足预定阈值条件,其中,所述当前音频段的音频特征包括:所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵;在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段。3.根据权利要求1所述的方法,其特征在于,根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括:重复执行以下步骤,直至当前音频段为所述多个音频段中的最后一个音频段,其中,所述当前音频段被初始化为所述多个音频段中的第一个音频段:判断所述当前音频段的音频特征是否满足预定阈值条件;在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段;在所述当前音频段的音频特征不满足所述预定阈值条件时,至少根据所述当前音频段的音频特征更新所述预定阈值条件,得到更新后的所述预定阈值条件;判断所述当前音频段是否为所述多个音频段中的最后一个音频
\t段,若不是,则将所述当前音频段的下一个音频段作为所述当前音频段。4.根据权利要求2或3所述的方法,其特征在于,判断所述当前音频段的音频特征是否满足所述预定阈值条件包括:判断所述当前音频段在时域的信号过零率是否大于第一阈值;在所述当前音频段的所述信号过零率大于所述第一阈值时,判断所述当前音频段在时域的短时能量是否大于第二阈值;在所述当前音频段的所述短时能量大于所述第二阈值时,判断所述当前音频段在频域的谱平度是否小于第三阈值;在所述当前音频段在频域的所述谱平度小于所述第三阈值时,判断所述当前音频段在时域的信号信息熵是否小于第四阈值;在所述当前音频段的音频特征满足所述预定阈值条件时,则检测出所述当前音频段为所述目标语音段包括:在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时,则检测出所述当前音频段为所述目标语音段。5.根据权利要求4所述的方法,其特征在于,至少根据所述当前音频段的音频特征更新所述预定阈值条件包括:在所述当前音频段的所述短时能量小于等于所述第二阈值时,至少根据所述当前音频段的所述短时能量更新所述第二阈值;或者在所述当前音频段的所述谱平度大于等于所述第三阈值时,至少根据所述当前音频段的所述谱平度更新所述第三阈值;或者在所述当前音频段的所述信号信息熵大于等于所述第四阈值时,至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。6.根据权利要求5所述的方法,其特征在于,至少根据所述当前音频段的音频特征更新所述预定阈值条件包括:A=a×A'+(1-a)×B,其中,所述a表示衰减系数,在所述B表示所述当前音频段的所
\t述短时能量时,所述A’表示所述第二阈值,所述A表示更新后的所述第二阈值;在所述B表示所述当前音频段的所述谱平度时,所述A’表示所述第三阈值,所述A表示更新后的所述第三阈值;在所述B表示所述当前音频段的所述信号信息熵时,所述A’表示所述第四阈值,所述A表示更新后的所述第四阈值。7.根据权利要求1所述的方法,其特征在于,在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后,还包括:根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。8.根据权利要求7所述的方法,其特征在于,所述根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻包括:获取连续K个所述目标语音段中的第一个目标语音段的起始时刻,作为所述连续语音段的所述起始时刻;在确认所述连续语音段的起始时刻后,获取在第K个目标语音段之后,连续M个非目标语音段中的第一个非目标语音段的起始时刻,作为所述连续语音段的所述终止时刻。9.根据权利要求2或3所述的方法,其特征在于,在将待检测的所述音频信号划分为所述多个音频段之后,还包括:获取所述多个音频段中前N个音频段,其中,所述N为大于1的整数;根据所述前N个音频段构建抑噪模型,其中,所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理;根据所述前N个音频段获取初始预定阈值条件。10.根据权利要求1所述的方法,其特征在于,在提取每个所述音频段中的音频特征之前,还包括:采集待检测的所述音频信号,其中,在采集所述音频信号时对所述音频信号进行第一次量化;对采集到的所述音频信号进行第二次量化,其中,所述第二次量化的量化级小于所述第一次量化的量化级。11.根据权利要求10所述的方法,其特征在于,在所述对采集到的所述音频信号进行第二次量化之前,还包括:对所述采集到的所述音频信号进行抑噪处理。12.一种语音检测装...

【专利技术属性】
技术研发人员:范海金
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1