【技术实现步骤摘要】
语音端点检测方法、装置、计算机设备、计算机存储介质
本专利技术涉及语音识别
,尤其涉及一种语音端点检测方法、装置、计算机设备和计算机可读存储介质。
技术介绍
在语音识别系统中,输入的音频信号一般包括语音和背景噪声,在输入信号中找到语音段,称为语音端点检测、起终点检测或语音活动性检测(VoiceActivityDetection;简称VAD)。简单地说就是要找出语音段的起点和终点,语音端点检测的准确与否,会直接影响到语音识别系统的性能。在现有的语音端点检测中,由于每个语音帧中既包含了语音信息又包含了背景噪声信息,这时需要对于每个语音帧进行语音端点检测,因此中央处理器(CPU)等硬件设备的功耗很大。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。根据本专利技术的第一个方面,提供了一种语音端点检测方法,可以包括:针对待检测语音帧,设置卷积神经网络(ConvolutionalNeuralNetwork,简称CNN)的卷积层(convolutionlayer或者convolutionallayer)的层数;根据卷积层的层数设置每层卷积层的步长, ...
【技术保护点】
1.一种语音端点检测方法,其特征在于,包括:针对待检测语音帧,设置卷积神经网络的卷积层的层数;根据所述卷积层的层数设置每层卷积层的步长,其中至少一个所述步长大于1;根据所述每层卷积层的步长,确定所述待检测语音帧的跳帧数。
【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:针对待检测语音帧,设置卷积神经网络的卷积层的层数;根据所述卷积层的层数设置每层卷积层的步长,其中至少一个所述步长大于1;根据所述每层卷积层的步长,确定所述待检测语音帧的跳帧数。2.根据权利要求1所述的语音端点检测方法,其中所述针对待检测语音帧,设置卷积神经网络的卷积层的层数包括:在所述跳帧数相同的情况下,设置能够将所述卷积层的层数最大化的层数。3.根据权利要求2所述的语音端点检测方法,其中所述根据所述卷积层的层数设置每层卷积层的步长,其中至少一个所述步长大于1包括:将第一层卷积层的步长设置为大于1。4.根据权利要求3所述的语音端点检测方法,其中所述将第一层卷积层的步长设置为大于1包括:将所述每层卷积层的步长都设置为大于1。5.根据权利要求4所述的语音端点检测方法,其中所述根据所述每层卷积层的步长,确定所述待检测语音帧的跳帧数包括:根据所述每层卷积层的步长的乘积,确定所述待检测语音帧的跳帧数。6.一种语音端点检测装置,其特征在于,包括:设置模块,用于针对待检测语音帧,设置...
【专利技术属性】
技术研发人员:李超,朱唯鑫,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。