语音活动侦测方法及装置制造方法及图纸

技术编号:17009769 阅读:86 留言:0更新日期:2018-01-11 06:00
语音活动侦测方法及装置,所述方法包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。上述的方案,可以提高语音活动侦测的准确率。

【技术实现步骤摘要】
语音活动侦测方法及装置
本专利技术涉及语音识别
,特别是涉及一种语音活动侦测方法及装置。
技术介绍
移动终端,是指可以在移动中使用的计算机设备,广义地讲包括手机、笔记本、平板电脑、POS机、车载电脑等。随着集成电路技术的飞速发展,移动终端已经拥有了强大的处理能力,移动终端正在从简单的通话工具变为一个综合信息处理平台,这也给移动终端增加了更加宽广的发展空间。但是,移动终端的使用,通常需要用户集中一定的注意力。如今的移动终端设备都配备有触摸屏,用户需要触摸所述触摸屏,以执行相应的操作。但是,用户无法触碰到移动终端设备时,操作移动终端便会变得极其不方便,如当用户驾驶车辆或者手中提有物品的时候。语音识别方法和总听系统(AlwaysListeningSystem)的使用,使得可以对移动终端进行非手动激活和操作。当所述总听系统检测到声音信号时,语音识别系统便会激活,并对检测到的声音信号进行识别,之后,移动终端便会根据所识别出的声音信号执行相应的操作,例如,当用户输入“拨打XX的手机”的语音时,移动终端便可以对用户输入的“拨打XX的手机”的语音信息进行识别,并在正确识别后,从移动终端中获取X本文档来自技高网...
语音活动侦测方法及装置

【技术保护点】
一种语音活动侦测方法,其特征在于,包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分...

【技术特征摘要】
1.一种语音活动侦测方法,其特征在于,包括:将输入的声音数据划分为多个非重叠的帧;对所述多个非重叠的帧进行遍历,计算得到当前帧的频谱能量、短时能量和周期数;基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率;采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵;基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,所述VAD向量中包括语音类别分值、非语音类别分值和静音类别分值;当确定所述语音类别分值分别大于所述非语音类别分值和所述静音类别分值,确定对应的当前帧中包括语音信息。2.根据权利要求1所述的语音活动侦测方法,其特征在于,所述计算得到当前帧的频谱能量、短时能量和周期数,包括:对当前帧进行离散傅立叶变换运算得到对应的频谱能量;基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量;采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数。3.根据权利要求2所述的语音活动侦测方法,其特征在于,所述基于所述当前帧对应的频谱能量,计算得到当前帧的短时能量,包括:将当前帧中的所有采样点的幅度的平方和,作为当前帧的短时能量。4.根据权利要求2所述的语音活动侦测方法,其特征在于,在采用短时自相关函数对当前帧进行周期估计,得到当前帧的周期数之前,还包括:对当前帧进行三电平中心削波处理。5.根据权利要求2所述的语音活动侦测方法,其特征在于,在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,还包括:滤除各个帧的直流偏移。6.根据权利要求2所述的语音活动侦测方法,其特征在于,在所述对当前帧进行离散傅立叶变换运算得到对应的频谱能量之前,还包括:对当前帧采用汉明窗进行加窗处理。7.根据权利要求1所述的语音活动侦测方法,其特征在于,所述基于当前帧的频谱能量、短时能量和周期数,计算当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率,包括:其中,Sa表示当前帧的频谱能量、短时能量或周期数落在预设的a的概率空间的概率,a表示语音类别、噪音类别或者静音类别,x表示当前帧的频谱能量、短时能量或周期数,μA、μB、μC、σA、σB、σC分别表示预设的阈值。8.根据权利要求7所述的语音活动侦测方法,其特征在于,所述采用当前帧的频谱能量、短时能量和周期数分别落入预设的语音类别的概率空间的概率、落入预设的噪音类别的概率空间的概率和落入预设的静音类别的概率空间的概率构建当前帧的概率空间矩阵,包括:其中,PDM表示当前帧的概率空间矩阵,Sve表示当前帧的频谱能量落在语音类别的概率空间的概率,Sμe表示当前帧的频谱能量落在非语音类别的概率空间的概率,Sse表示当前帧的频谱能量落在静音类别的概率空间的概率,Svi表示当前帧的短时能量落在语音类别的概率空间的概率,Sμi表示当前帧的短时能量落在非语音类别的概率空间的概率,Ssi表示当前帧的短时能量落在静音类别的概率空间的概率,Svp表示当前帧的周期数落在语音类别的概率空间的概率,Sμp表示当前帧的周期数落在非语音类别的概率空间的概率,Ssp表示当前帧的周期数落在静音类别的概率空间的概率。9.根据权利要求8所述的语音活动侦测方法,其特征在于,所述基于当前帧的概率空间矩阵,计算当前帧对应的VAD向量,包括:OVAD=[111]*PDM=[Sv(e+i+p),Sμ(e+i+p),Ss(e+i+p)];其中,OVAD表示当前帧对应的VAD向量,Sv(e+i+p)表示所述VAD向量中的语音类别分值,Sμ(e+i+p)表示所述VAD向量中的非语音类别分值,Ss(e+i+p)表示所述VAD向量中的静音类别分值。10.根据权利要求1所述的语音活动侦测方法,其特征在于,所述多个非重叠的帧中的各个帧的时长为15ms。11...

【专利技术属性】
技术研发人员:孙廷玮柯逸倩
申请(专利权)人:展讯通信上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1