基音检测方法、装置、终端设备和介质制造方法及图纸

技术编号:23192198 阅读:21 留言:0更新日期:2020-01-24 16:43
本发明专利技术公开了一种基音检测方法、装置、终端设备和介质。该方法包括:获取时域上的待检测语音信号;确定待检测语音信号对应的目标频域信号;基于目标频域信号确定M个基音周期侯选值;基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。根据本发明专利技术实施例,能够提高基音检测的准确性。

Pitch detection method, device, terminal equipment and medium

【技术实现步骤摘要】
基音检测方法、装置、终端设备和介质
本专利技术涉及信息处理
,尤其涉及一种基音检测方法、装置、终端设备和介质。
技术介绍
目前,语音识别以及语音唤醒得到了越来越广泛的应用。然而,在噪声或者强噪声环境下,语音识别率和语音唤醒率会显著下降。语音基音周期是语音信号的一个重要特征,所以获取准确的语音基音周期对语音识别或语音唤醒是有帮助的。目前,如果背景噪声信号较大,语音的谐波结构(尤其是低频的谐波结构)被噪声覆盖,此时难以获得较为准确的基音周期,基音周期容易被错误的估计为二次谐波、高次谐波、1/2谐波或者干扰噪声的某个频率等。因此,在低信噪比情况下基音周期估计不准,即降低了基音检测的准确率。
技术实现思路
本专利技术实施例提供一种基音检测方法、装置、终端设备和介质,以解决基音检测的准确率较低的问题。为了解决上述技术问题,本专利技术是这样实现的:一种基音检测方法,包括:获取时域上的待检测语音信号;确定待检测语音信号对应的目标频域信号;基于目标频域信号确定M个基音周期侯选值;基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。第一方面,本专利技术实施例提供一种基音检测装置,该装置包括:语音信号获取模块,用于获取时域上的待检测语音信号;目标频域信号确定模块,用于确定待检测语音信号对应的目标频域信号;基音周期候选值确定模块,用于基于目标频域信号确定M个基音周期侯选值;基音周期确定模块,用于基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期;M个余弦信号是利用M个基音周期侯选值生成的,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。第二方面,本专利技术实施例提供一种终端设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如本专利技术实施例提供的基音检测方法。第三方面,本专利技术实施例提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本专利技术实施例提供的基音检测方法。在本专利技术实施例中,采用两级基音周期估计方法,第一级利用时域上的待检测语音信号对应的目标频域信号,确定M个基音周期侯选值;第二级采用分别以M个基音周期侯选值为周期的M个余弦信号,从M个基音周期候选值中选出最准确的基音周期,避免将基音频率估计为二倍频、高倍频或1/2倍频等,提高了基音检测的准确性。附图说明从下面结合附图对本专利技术的具体实施方式的描述中可以更好地理解本专利技术其中,相同或相似的附图标记表示相同或相似的特征。图1为本专利技术一实施例提供的基音检测方法的流程示意图;图2为本专利技术一实施例提供的第三频域信号的频谱图;图3为本专利技术一实施例提供的预设权值与频点的关系曲线图;图4为本专利技术一实施例提供的一个目标频域信号的频谱图;图5为本专利技术一实施例提供的基音检测装置的结构示意图;图6为本专利技术一实施例提供的终端设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1示出本专利技术实施例提供的基音检测方法的流程示意图。如图1所示,本专利技术实施例提供的基音检测方法包括:S110,获取时域上的待检测语音信号。在本专利技术的一些实施例中,时域上的待检测语音信号可以从语音采集设备处获取。作为一个示例,在手机实时通话的应用场景中,手机上的麦克风用于采集语音信号。麦克风采集到的语音信号会送到数字处理芯片中。例如麦克风可以一次送进来10ms(毫秒)长度的语音信号。由于语音信号是短时平稳(如30ms以内近似认为是平稳的)但长时间不平稳的信号。因此可以对相对短时且平稳的语音信号做基音检测。作为一个示例,数字处理芯片可以对读入的语音信号进行分帧处理。例如,可以取30ms左右的语音信号为一帧,作为待检测语音信号。例如,数字处理芯片一次读进来10ms长度的语音信号,通过对历史的语音信号进行缓存,凑齐30ms左右的待检测语音信号进行一次基音检测。S120,确定待检测语音信号对应的目标频域信号。在本专利技术的实施例中,通过对时域上的待检测语音信号做快速傅里叶变换,可以将时域上的语音信号转换到频域,以得到目标频域信号。S130,基于目标频域信号确定M个基音周期侯选值。S140,基于M个余弦信号从M个基音周期候选值中确定待检测语音信号的基音周期。M个余弦信号是利用M个基音周期侯选值生成的。其中,M个余弦信号的周期分别为M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。在本专利技术的实施例中,采用两级基音周期估计方法,第一级利用时域上的待检测语音信号对应的目标频域信号,确定M个基音周期侯选值;第二级采用以基音周期侯选值为周期的余弦信号从M个基音周期候选值中选出最准确的基音周期,避免将基音频率估计为二倍频、高倍频或1/2倍频等,提高了基音检测的准确性。在本专利技术的一些实施例中,步骤S120包括:S1201,将待检测语音信号转换到频域,得到初始频域信号。作为一个示例,一般傅里叶变换考虑到快速运算会做2的整数次幂的点数,如傅里叶变换的点数为256点、512点或1024点等。假设语音信号的采样频率为16kHz(赫兹),一帧待检测语音信号的帧长为512,则对512点的语音数据作512点的傅里叶变换,得到待检测语音信号对应的初始频域信号。其中得到的初始频域信号为256点频域信号,频域分辨率为31.25Hz。S1202,对初始频域信号进行平滑滤波,得到第一频域信号。在本专利技术的实施例中,初始频域信号包括语音的声道信息和激励信息,由于基音周期估计只和激励信息有关,为了降低基音检测的复杂度,因此可以对初始频域信号进行预处理,即可以先去除初始频域信号的声道信息。在本专利技术的一些实施例中,可以采用平滑滤波的方式对初始频域信号进行低通滤波,得到平滑之后的第一频域信号。其中第一频域信号包含了语音信号中的声道信息。作为一个示例,可以采用理想低通滤波器、巴特沃思低通滤波器或高斯低通滤波器等低通滤波器对初始频域信号进行平滑滤波。S1203,将初始频域信号减去第一频域信号得到第二频域信号。在一些实施例中,利用初始频域信号减去第一频域信号(即去除了语音信号中的声道信息),得到只包含激励信息的第二频域信号。S1204,基于第二频域信号确定目标频域信号。在本专利技术本文档来自技高网...

【技术保护点】
1.一种基音检测方法,其特征在于,所述方法包括:/n获取时域上的待检测语音信号;/n确定所述待检测语音信号对应的目标频域信号;/n基于所述目标频域信号确定M个基音周期侯选值;/n基于M个余弦信号从所述M个基音周期候选值中确定所述待检测语音信号的基音周期;所述M个余弦信号是利用所述M个基音周期侯选值生成的,所述M个余弦信号的周期分别为所述M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。/n

【技术特征摘要】
1.一种基音检测方法,其特征在于,所述方法包括:
获取时域上的待检测语音信号;
确定所述待检测语音信号对应的目标频域信号;
基于所述目标频域信号确定M个基音周期侯选值;
基于M个余弦信号从所述M个基音周期候选值中确定所述待检测语音信号的基音周期;所述M个余弦信号是利用所述M个基音周期侯选值生成的,所述M个余弦信号的周期分别为所述M个基音周期侯选值,且一个余弦信号的周期对应一个基音周期侯选值,M为大于等于2的整数。


2.根据权利要求1所述的方法,其特征在于,所述确定所述待检测语音信号对应的目标频域信号,包括:
将所述待检测语音信号转换到频域,得到初始频域信号;
对所述初始频域信号进行平滑滤波,得到第一频域信号;
将所述初始频域信号减去所述第一频域信号得到第二频域信号;
基于所述第二频域信号确定所述目标频域信号。


3.根据权利要求2所述的方法,其特征在于,所述基于所述第二频域信号确定所述目标频域信号,包括:
对所述第二频域信号进行插值处理,得到第三频域信号;
基于所述第三频域信号确定所述目标频域信号。


4.根据权利要求3所述的方法,其特征在于,所述基于所述第三频域信号确定所述目标频域信号,包括:
将所述第三频域信号中预先选定的N个频点中每个频点对应的幅度值分别乘以对应的预设权值,得到所述目标频域信号,N为大于等于1的整数;
其中,对于所述预先选定的N个频点中任意的两个频点,若所述两个频点中的一个频点的频率值大于所述两个频点中另一个频点的频率值,则所述两个频点中的一个频点对应的预设权值小于所述两个频点中另一个频点对应的预设权值。


5.根据权利要求1所述的方法,其特征在于,基于所述目标频域信号确定M个基音周期侯选值,包括:
将所述目标频域信号中的每个预设频点作为目标频点,对于每个目标频点,基于所述目标频域信号得到由所述目标频点的频率值所确定的周期对应的波峰幅度值和波谷幅度值;
基于所得到的波峰幅度值,确定频点与波峰幅度值之间的第一函数,并基于所得到的波谷幅度值,确定频点与波谷幅度值之间的第二函数;
将所述第一函数减去所述第二函数得到目标函数;
将获取的所述目标函数中的至少一个幅度极...

【专利技术属性】
技术研发人员:王少华申厚拯
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1