【技术实现步骤摘要】
基于频域能量的语音端点检测方法和装置
本专利技术涉及语音识别
,具体涉及一种基于频域能量的语音端点检测方法和装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。近年来,随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,语音端点检测(VoiceActivityDetection,简称VAD)是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出人声语音部分的起始点和终止点。端点检测准确与否,会直接影响到语音识别系统的性能。如果端点切分出现错误,则会导致漏识别或者误识别等情况的发生,或者某些非语音信号同样触发了识别,例如:咳嗽声、关门声、脚步声等,进而可导致语音识别结果不准确。传统的语音端点检测方法主要包括两种:(1)获取时域能量,并与给定的阈值进行比较,从而判断出语音的起始点和终止点。(2)获取音频信号的过零率,并与给定的阈值进行比较,上述过零率也即声音信号在零点附近超过一定阈值的跳变频率。除此之外,近年来还出现多种基于模型的语音端点检测方法,其 ...
【技术保护点】
1.一种基于频域能量的语音端点检测方法,其特征在于,所述方法包括:获取语音信号,对所述语音信号分帧后得到待测语音帧;根据所述待测语音帧与预设频率范围获取第一能量特征;根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度;根据所述差异度对所述待测语音帧进行分类,并根据分类结果检测获得所述语音信号的语音端点。
【技术特征摘要】
1.一种基于频域能量的语音端点检测方法,其特征在于,所述方法包括:获取语音信号,对所述语音信号分帧后得到待测语音帧;根据所述待测语音帧与预设频率范围获取第一能量特征;根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度;根据所述差异度对所述待测语音帧进行分类,并根据分类结果检测获得所述语音信号的语音端点。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述语音信号获取预设帧数的初始语音信号,作为所述预设底噪;在所述预设频率范围内,计算所述预设帧数的初始语音信号的能量特征均值,从而得到第二能量特征。3.根据权利要求2所述的方法,其特征在于,根据所述第一能量特征计算所述待测语音帧与预设底噪之间的差异度包括以下中的至少一种:计算所述第一能量特征与所述第二能量特征的差值;计算所述第一能量特征与所述第二能量特征的比值。4.根据权利要求1~3中任一所述的方法,其特征在于,所述预设频率范围为人声频域范围。5.根据权利要求1~3中任一所述的方法,其特征在于,所述在预设频率范围内,对所述待测语音帧的能量特征进行计算至少包括以下中的一种或多种:在所述预设频率范围内,对所述待测语音帧的第一谱能量和进行计算;在所述预设频率范围内,按照预设频段权重参数对所述待测语音帧的第二谱能量和进行计算;对所述待测语音帧的第三谱能量和与第四谱能量和的比值进行计算,其中所述第三谱能量和为所述待测语音帧在所述预设频率范围内的谱能量,所述第四谱能量和为所述待测语音帧在全频域范围内的谱能量总和。6.根据权利要求1所述的方法,其特征在于,其中,所述根据所述差异度对所述待测语音帧进行分类包括:若所述待测语音帧与预设底噪之间的差异度超过预定阈值,将所述待测语音帧判定为第一分类;若所述待测语音帧与预设底噪之间的差异度未超过所述预定阈值,将所述待测语音帧判定为第二分类。7.根据权利要求6所述的方法,其特征在于,所述根据分类结果获取所述语音信号的语音端点包括:当超过第一预设值的待测语音帧被连续判定为第一分类时,将所述超过第一预设值的待测语音帧的起点设置为第一端点;在设置所述第一端点之后,当超过第一预设值的待测语音帧被连续判定为第一分类时,将所述超过第一预设值的待测语音帧的起点设置为第二端点。8.一种基于频域能量的语音端点检测装置,其特征在于,所述的装置包括:获取模块,用于获取语音信号,对所述语音信号分帧后得到待测语音帧;特征计算模块,用于根据所述待测语音帧与预设频率范围获取第一能量特征;差异度计算模块,用于根据所述第一能量特征计算所述待测...
【专利技术属性】
技术研发人员:吴威,张楠赓,
申请(专利权)人:北京嘉楠捷思信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。