语音检测方法和装置制造方法及图纸

技术编号：16477624 阅读：52 留言：0更新日期：2017-10-31 07:26

本发明专利技术公开了一种语音检测方法和装置。其中，该方法包括：将待检测的音频信号划分为多个音频段；提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征；根据音频段的音频特征从音频段中检测出目标语音段。本发明专利技术解决了由于采用现有的语音检测方法所导致的语音检测的准确率较低的技术问题。

Voice detection method and device

The invention discloses a speech detection method and device. Among them, the method includes: detecting the audio signal will be divided into multiple audio segments; extraction of audio features, each audio segment in which audio features include at least the characteristics of audio segment feature in time domain and frequency domain; according to the audio features of the audio from the audio segments detected in the target language segment. The invention solves the technical problem that the accuracy of the voice detection caused by the existing voice detection method is low.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，具体而言，涉及一种语音检测方法和装置。
技术介绍
目前，为了简化操作，改善用户体验，在很多领域都开始应用语音信号实现控制。例如，将语音信号作为语音输入密码。但在现有技术中，对语音信号所采用的语音检测方式通常是对输入信号进行单个特征提取，这样提取到的单个特征，往往对噪声较为敏感，无法准确区分干扰声音和语音信号，从而导致语音检测的准确率下降。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语音检测方法和装置，以至少解决由于采用现有的语音检测方法所导致的语音检测的准确率较低的技术问题。根据本专利技术实施例的一个方面，提供了一种语音检测方法，包括：将待检测的音频信号划分为多个音频段；提取每个上述音频段中的音频特征，其中，上述音频特征至少包括上述音频段的时域特征及频域特征；根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。根据本专利技术实施例的另一方面，还提供了一种语音检测装置，包括：划分单元，用于将待检测的音频信号划分为多个音频段；提取单元，用于提取每个上述音频段中的音频特征，其中，上述音频特征至少包括上述音频段的时域特征及频域特征；检测单元，用于根据上述音频段的上述音频特征从上述音频段中检测出目标语音段。在本专利技术实施例中，通过将待检测的音频信号划分为多个音频段，并提取每个音频段中的音频特征，其中，音频特征至少包括音频段的时域特征及频域特征，从而实现融合音频段在不同域的多个特征来从上述多个音频段中准确检测出目标语音段，以降低音频段中的噪声信号对语音检测过程的干扰，达到提高检...
语音检测方法和装置

【技术保护点】
一种语音检测方法，其特征在于，包括：将待检测的音频信号划分为多个音频段；提取每个所述音频段中的音频特征，其中，所述音频特征至少包括所述音频段的时域特征及频域特征；根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。

【技术特征摘要】
1.一种语音检测方法，其特征在于，包括：将待检测的音频信号划分为多个音频段；提取每个所述音频段中的音频特征，其中，所述音频特征至少包括所述音频段的时域特征及频域特征；根据所述音频段的所述音频特征从所述音频段中检测出目标语音段。2.根据权利要求1所述的方法，其特征在于，根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括：判断当前音频段的音频特征是否满足预定阈值条件，其中，所述当前音频段的音频特征包括：所述当前音频段在时域的信号过零率、所述当前音频段在时域的短时能量、所述当前音频段在频域的谱平度、所述当前音频段在时域的信号信息熵；在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段。3.根据权利要求1所述的方法，其特征在于，根据所述音频段的所述音频特征从所述音频段中检测出所述目标语音段包括：重复执行以下步骤，直至当前音频段为所述多个音频段中的最后一个音频段，其中，所述当前音频段被初始化为所述多个音频段中的第一个音频段：判断所述当前音频段的音频特征是否满足预定阈值条件；在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段；在所述当前音频段的音频特征不满足所述预定阈值条件时，至少根据所述当前音频段的音频特征更新所述预定阈值条件，得到更新后的所述预定阈值条件；判断所述当前音频段是否为所述多个音频段中的最后一个音频
\t段，若不是，则将所述当前音频段的下一个音频段作为所述当前音频段。4.根据权利要求2或3所述的方法，其特征在于，判断所述当前音频段的音频特征是否满足所述预定阈值条件包括：判断所述当前音频段在时域的信号过零率是否大于第一阈值；在所述当前音频段的所述信号过零率大于所述第一阈值时，判断所述当前音频段在时域的短时能量是否大于第二阈值；在所述当前音频段的所述短时能量大于所述第二阈值时，判断所述当前音频段在频域的谱平度是否小于第三阈值；在所述当前音频段在频域的所述谱平度小于所述第三阈值时，判断所述当前音频段在时域的信号信息熵是否小于第四阈值；在所述当前音频段的音频特征满足所述预定阈值条件时，则检测出所述当前音频段为所述目标语音段包括：在判断出所述当前音频段的所述信号信息熵小于所述第四阈值时，则检测出所述当前音频段为所述目标语音段。5.根据权利要求4所述的方法，其特征在于，至少根据所述当前音频段的音频特征更新所述预定阈值条件包括：在所述当前音频段的所述短时能量小于等于所述第二阈值时，至少根据所述当前音频段的所述短时能量更新所述第二阈值；或者在所述当前音频段的所述谱平度大于等于所述第三阈值时，至少根据所述当前音频段的所述谱平度更新所述第三阈值；或者在所述当前音频段的所述信号信息熵大于等于所述第四阈值时，至少根据所述当前音频段的所述信号信息熵更新所述第四阈值。6.根据权利要求5所述的方法，其特征在于，至少根据所述当前音频段的音频特征更新所述预定阈值条件包括：A＝a×A'+(1-a)×B，其中，所述a表示衰减系数，在所述B表示所述当前音频段的所
\t述短时能量时，所述A’表示所述第二阈值，所述A表示更新后的所述第二阈值；在所述B表示所述当前音频段的所述谱平度时，所述A’表示所述第三阈值，所述A表示更新后的所述第三阈值；在所述B表示所述当前音频段的所述信号信息熵时，所述A’表示所述第四阈值，所述A表示更新后的所述第四阈值。7.根据权利要求1所述的方法，其特征在于，在根据所述音频段的所述音频特征从所述音频段中检测出目标语音段之后，还包括：根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻。8.根据权利要求7所述的方法，其特征在于，所述根据所述目标语音段在所述多个音频段中的位置确定所述目标语音段构成的连续语音段的起始时刻及终止时刻包括：获取连续K个所述目标语音段中的第一个目标语音段的起始时刻，作为所述连续语音段的所述起始时刻；在确认所述连续语音段的起始时刻后，获取在第K个目标语音段之后，连续M个非目标语音段中的第一个非目标语音段的起始时刻，作为所述连续语音段的所述终止时刻。9.根据权利要求2或3所述的方法，其特征在于，在将待检测的所述音频信号划分为所述多个音频段之后，还包括：获取所述多个音频段中前N个音频段，其中，所述N为大于1的整数；根据所述前N个音频段构建抑噪模型，其中，所述抑噪模型用于对所述多个音频段中第N+1个音频段及其之后的音频段进行抑噪处理；根据所述前N个音频段获取初始预定阈值条件。10.根据权利要求1所述的方法，其特征在于，在提取每个所述音频段中的音频特征之前，还包括：采集待检测的所述音频信号，其中，在采集所述音频信号时对所述音频信号进行第一次量化；对采集到的所述音频信号进行第二次量化，其中，所述第二次量化的量化级小于所述第一次量化的量化级。11.根据权利要求10所述的方法，其特征在于，在所述对采集到的所述音频信号进行第二次量化之前，还包括：对所述采集到的所述音频信号进行抑噪处理。12.一种语音检测装...

【专利技术属性】
技术研发人员：范海金，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人