基频获取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28678458 阅读:26 留言:0更新日期:2021-06-02 02:55
本申请涉及一种基频获取方法、装置、计算机设备和存储介质。所述方法包括:获取时域音频信号;利用预设的滤波器组对时域音频信号进行滤波处理,得到语音信号;确定具有预设窗口大小的自相关窗口;利用自相关窗口获取语音信号的归一化自相关特征;将归一化自相关特征输入至预先构建的特征提取模型中的编码器,对归一化自相关特征进行降维处理,得到具有归一化自相关特征对应的降维特征;将降维特征输入至预先构建的基频获取模型,输出降维特征对应的目标基频类别;基于预设的基频类别与基频频率之间的对应关系,确定目标基频类别对应的目标基频频率,将目标基频频率作为时域音频信号的基频频率。采用本方法能够提高基频获取的准确率。

【技术实现步骤摘要】
基频获取方法、装置、计算机设备和存储介质
本申请涉及音频处理
,特别是涉及一种基频获取方法、装置、计算机设备和存储介质。
技术介绍
随着音频处理技术的发展,对音频信号进行类似降噪、和声、升降调,以及编码压缩等处理过程已经在多种应用场景下有着广泛的应用。而上述对音频信号的处理,都离不开对该音频信号的基频的准确获取,基频获取的准确性与音频信号的处理精度息息相关。目前,一般是通过预先训练好的神经网络模型进行音频信号的基频获取,相比于基于统计学的基频获取方法,在噪声环境中,信噪比降低时仍然可以保持基频获取的精度。然而,通过神经网络进行基频的获取方法中,输入的音频信号的特征维度较大,导致网络参数量大,同时输入特征幅度依赖于输入数据的幅度,当输入特征幅度与输入数据的幅度不匹配时,因此,现有的基频获取方法中基频获取的准确率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种基频获取方法、装置、计算机设备和存储介质。一种基频获取方法,所述方法包括:获取时域音频信号;利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;确定具有预设窗口大小的自相关窗口;利用所述自相关窗口获取所述语音信号的归一化自相关特征;将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于所述第一误差阈值,则将所述自编码器模型作为所述特征提取模型;将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。在其中一个实施例中,所述滤波器组包括多个滤波器通道;所述多个滤波器通道对应于多个滤波器函数;所述得到语音信号,包括:确定各滤波器通道对应的滤波器函数;利用所述各滤波器通道对应的滤波器函数对所述时域音频信号进行滤波处理,获取所述各滤波器通道对应的子语音信号,得到多个子语音信号;所述利用所述自相关窗口获取所述语音信号的归一化自相关特征,包括:利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,包括:将所述多个归一化子自相关特征输入所述编码器。在其中一个实施例中,所述利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征,包括:获取预设的自相关特征提取周期;根据所述自相关特征提取周期,以及所述预设窗口大小,获取所述各子语音信号的所述归一化子自相关特征。在其中一个实施例中,所述确定具有预设窗口大小的自相关窗口,包括:获取预设的第一基频频率,以及预设的对所述时域音频信号进行采样的采样频率;根据所述第一基频频率以及所述采样频率确定所述自相关窗口的窗口大小。在其中一个实施例中,所述将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别,包括:将所述降维特征输入至所述基频获取模型,以使所述基频获取模型获取所述降维特征对应的预测概率向量;所述预测概率向量用于表征所述降维特征属于预先设定的多个基频类别的预测概率;将所述预测概率向量输入隐马尔可夫模型,从所述多个基频类别中确定所述目标基频类别。在其中一个实施例中,所述降维特征的个数为多个,分别对应于不同的降维特征的提取时刻;所述从所述多个基频类别中确定所述目标基频类别,包括:确定当前降维特征;若所述当前降维特征为首个降维特征,则将所述当前降维特征对应的预测概率向量中,预测概率最大的基频类别作为所述目标基频类别;若所述当前降维特征为非首个降维特征,则获取所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量;基于所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量,以及所述当前降维特征对应的预测概率向量,确定各降维特征对应的多个预测基频类别;利用所述多个预测基频类别得到多个基频类别变化路径,将基频类别变化率最小的基频类别变化路径作为目标基频类别变化路径,利用所述目标基频类别变化路径确定所述目标基频类别。在其中一个实施例中,所述多个基频类别由不同的基频频率与预设的第二基频频率之间的比值,以及预设的转换系数得到;所述基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,包括:根据所述目标基频类别、所述转换系数,以及所述第二基频频率,获取所述目标基频频率。在其中一个实施例中,所述编码器由卷积层与最大值池化层组成;所述解码器由卷积层和上采样层组成;所述获取所述样本归一化自相关特征与所述样本升维特征的均方误差之后,还包括:若所述均方误差大于预设的第一误差阈值,则利用所述均方误差更新所述编码器权值以及所述解码器权值,并返回至将所述样本归一化自相关特征输入待训练的自编码器模型的编码器的步骤。在其中一个实施例中,所述将所述降维特征输入预先训练的由预设数量的全连接层组成的基频获取模型之前,还包括:通过所述特征提取模型的编码器获取所述样本归一化自相关特征对应的样本降维特征,以及获取所述样本降维特征对应的样本标签;所述样本标签用于标识所述样本降维特征属于预先设定的多个基频类别的概率;将所述样本降维特征输入待训练的基频估计模型,以使所述基频估计模型获取所述样本降维特征属于所述多个基频类别的样本概率;获取所述样本概率与所述样本标签的误差;若所述误差大于预设的第二误差阈值,则利用所述误差更新所述基频估计模型,并返回至将所述样本降维特征输入待训练的基频估计模型的步骤,若所述误差小于或者等于所述第二误差阈值,则将所述基频估计模型作为所述基频获取模型。一种基频获取装置,所述装置包括:音频信号获取模块,用于获取时域音频信号;音频信号滤波模块,用于利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;自相关窗口确定模块,用于确定具有预设窗口大小的自相关窗口;音频特征获取模块,用于利用所述自相关窗口获取所述语音信号的归一化自相关特征;降维特征获取模块,用于将所述归一化自相关本文档来自技高网...

【技术保护点】
1.一种基频获取方法,其特征在于,所述方法包括:/n获取时域音频信号;/n利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;/n确定具有预设窗口大小的自相关窗口;/n利用所述自相关窗口获取所述语音信号的归一化自相关特征;/n将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于所述第一误差阈值,则将所述自编码器模型作为所述特征提取模型;/n将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;/n基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。/n...

【技术特征摘要】
1.一种基频获取方法,其特征在于,所述方法包括:
获取时域音频信号;
利用预设的滤波器组对所述时域音频信号进行滤波处理,得到语音信号;
确定具有预设窗口大小的自相关窗口;
利用所述自相关窗口获取所述语音信号的归一化自相关特征;
将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,以使所述编码器对所述归一化自相关特征进行降维处理,得到具有预设维度的所述归一化自相关特征对应的降维特征;所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器之前,还包括:获取样本音频信号的样本归一化自相关特征;将所述样本归一化自相关特征输入待训练的自编码器模型的编码器,以使所述编码器的编码器权值对所述样本归一化自相关特征进行降维处理,得到预设维度的所述样本归一化自相关特征对应的样本降维特征;将所述样本降维特征输入所述自编码器模型的解码器,以使所述解码器的解码器权值对所述样本降维特征进行升维处理,将所述样本降维特征的维度恢复为所述样本归一化自相关特征的维度,得到样本升维特征;获取所述样本归一化自相关特征与所述样本升维特征的均方误差;若所述均方误差小于等于所述第一误差阈值,则将所述自编码器模型作为所述特征提取模型;
将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别;
基于预设的基频类别与基频频率之间的对应关系,确定所述目标基频类别对应的目标基频频率,将所述目标基频频率作为所述时域音频信号的基频频率。


2.根据权利要求1所述的方法,其特征在于,所述滤波器组包括多个滤波器通道;所述多个滤波器通道对应于多个滤波器函数;
所述得到语音信号,包括:
确定各滤波器通道对应的滤波器函数;
利用所述各滤波器通道对应的滤波器函数对所述时域音频信号进行滤波处理,获取所述各滤波器通道对应的子语音信号,得到多个子语音信号;
所述利用所述自相关窗口获取所述语音信号的归一化自相关特征,包括:
利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征;
所述将所述归一化自相关特征输入至预先构建的特征提取模型中的编码器,包括:
将所述多个归一化子自相关特征输入所述编码器。


3.根据权利要求2所述的方法,其特征在于,所述利用所述自相关窗口获取各子语音信号的归一化子自相关特征,得到多个归一化子自相关特征,包括:
获取预设的自相关特征提取周期;
根据所述自相关特征提取周期,以及所述预设窗口大小,获取所述各子语音信号的所述归一化子自相关特征。


4.根据权利要求3所述的方法,其特征在于,所述确定具有预设窗口大小的自相关窗口,包括:
获取预设的第一基频频率,以及预设的对所述时域音频信号进行采样的采样频率;
根据所述第一基频频率以及所述采样频率确定所述自相关窗口的窗口大小。


5.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述降维特征输入至预先构建的由预设数量的全连接层组成的基频获取模型,以使所述基频获取模型输出所述降维特征对应的目标基频类别,包括:
将所述降维特征输入至所述基频获取模型,以使所述基频获取模型获取所述降维特征对应的预测概率向量;所述预测概率向量用于表征所述降维特征属于预先设定的多个基频类别的预测概率;
将所述预测概率向量输入隐马尔可夫模型,从所述多个基频类别中确定所述目标基频类别。


6.根据权利要求5所述的方法,其特征在于,所述降维特征的个数为多个,分别对应于不同的降维特征的提取时刻;所述从所述多个基频类别中确定所述目标基频类别,包括:
确定当前降维特征;
若所述当前降维特征为首个降维特征,则将所述当前降维特征对应的预测概率向量中,预测概率最大的基频类别作为所述目标基频类别;
若所述当前降维特征为非首个降维特征,则获取所述当前降维特征之前的所有降维特征分别对应的多个预测概率向量;
基于所述当前降维特征之前的所有降维特征分别对应的多个预...

【专利技术属性】
技术研发人员:黄荣均
申请(专利权)人:珠海市杰理科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1