音频检测方法、训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:38356507 阅读:11 留言:0更新日期:2023-08-05 17:28
本公开提供一种音频检测方法、训练方法、装置、电子设备和存储介质。该音频检测方法包括:从采集的目标音频数据实时获取预定长度的音频数据;从所述预定长度的音频数据提取音频特征;将所述音频特征输入发声技巧检测模型进行检测处理,得到所述预定长度的音频数据中的发声技巧检出概率,其中,所述发声技巧检出概率包括预定多种发声技巧类型中的每种发声技巧类型在所述预定长度的音频数据中存在的概率;基于所述发声技巧检出概率,得到所述预定长度的音频数据中存在的发声技巧类型的检测结果。本公开的音频检测方法能够实时准确地检测音频数据中存在的多种发声技巧。测音频数据中存在的多种发声技巧。测音频数据中存在的多种发声技巧。

【技术实现步骤摘要】
音频检测方法、训练方法、装置、电子设备和存储介质


[0001]本公开涉及音频
,更具体地说,涉及一种音频检测方法、发声技巧检测模型的训练方法、装置、电子设备和存储介质。

技术介绍

[0002]歌声中是否合理的使用了演唱技巧是歌声是否好听的重要因素之一。演唱技巧可以分解为音调类的技巧和发声类的技巧两类,音调类的技巧是指表现为某种音调特征的技巧,例如,可包括颤音、装饰音、转音、抖音等,发声类技巧是指通过控制发声的共振方式而达到的技巧,例如,可包括真假声、美声、戏腔等。
[0003]演唱技巧的教学可借助声乐老师的现场指导,声乐老师会在演唱过程中及时对演唱技巧的使用情况进行反馈。然而,在没有声乐老师指导或独自练习时,使用自动化的技巧分析工具可以提供对演唱技巧的使用情况的反馈。然而通过目前的唱歌工具或平台等的技巧分析工具均不能达到实时演唱教学的效果,存在反馈演唱技巧不全面、反馈不实时等问题。

技术实现思路

[0004]本公开提供一种音频检测方法、发声技巧检测模型的训练方法、装置、电子设备和存储介质,以至少解决上述相关技术中的问题。
[0005]根据本公开实施例的第一方面,提供一种音频检测方法,其特征在于,包括:从采集的目标音频数据实时获取预定长度的音频数据;从所述预定长度的音频数据提取音频特征;将所述音频特征输入发声技巧检测模型进行检测处理,得到所述预定长度的音频数据中的发声技巧检出概率,其中,所述发声技巧检出概率包括预定多种发声技巧类型中的每种发声技巧类型在所述预定长度的音频数据中存在的概率;基于所述发声技巧检出概率,得到所述预定长度的音频数据中存在的发声技巧类型的检测结果。
[0006]可选地,在所述基于所述发声技巧检出概率,得到所述预定长度的音频数据中存在的发声技巧类型的检测结果之后,还包括:基于从所述预定长度的音频数据中提取的音调特征,结合确定的发声技巧类型的音调特性,对所述检测结果进行调整。
[0007]可选地,所述对所述确定的发声技巧类型的确定结果进行调整,包括以下步骤中的至少一个:在检测到所述预定长度的音频数据中存在假声技巧的情况下,获取所述预定长度的音频数据中的基音频率值的预定统计值,并在所述预定统计值小于第一预定阈值的情况下,确定所述预定长度的音频数据中不存在假声技巧;在检测到所述预定长度的音频数据中存在戏腔技巧的情况下,获取所述预定长度的音频数据中的基音频率值的预定统计值,并在所述预定统计值小于第二预定阈值的情况下,确定所述预定长度的音频数据中不存在戏腔技巧;在检测到所述预定长度的音频数据中存在美声技巧的情况下,获取所述预定长度的音频数据中的基音频率值的预定统计值,计算所述预定统计值的两个预定倍频位置的频谱能量之中较大频谱能量与较小频谱能量的比值,并在所述比值小于第三预定阈值
的情况下,确定所述预定长度的音频数据中不存在美声技巧,其中,所述两个预定倍频为倍频值恰好大于和小于第四预定阈值的两个倍频。
[0008]可选地,所述基于所述发声技巧检出概率,得到所述预定长度的音频数据中存在的发声技巧类型的检测结果,包括:在所述发声技巧检出概率中每种发声技巧类型的检出概率大于对应的发声技巧类型的检出概率阈值的情况下,确定所述预定长度的音频数据中存在对应的发声技巧类型。
[0009]可选地,音频检测方法还包括:实时检测所述目标音频数据的每帧音频数据的基音频率值;基于实时检测的每帧音频数据的基音频率值,获得基音频率序列;基于所述基音频率序列,对所述目标音频数据执行音调技巧检测。
[0010]可选地,所述基于所述基音频率序列,对所述目标音频数据执行音调技巧检测,包括:确定所述基音频率序列中按时间顺序存在的多个峰谷对,其中,每个峰谷对由所述基音频率序列中存在的相邻的峰值和谷值组成;在所述多个峰谷对中,在连续的第一预定数量个峰谷对满足第一预定条件,且在所述连续的第一预定数量个峰谷对之后连续的第二预定数量个峰谷对满足所述第一预定条件和第二预定条件的情况下,确定所述目标音频数据存在颤音技巧;其中,所述第一预定条件为峰谷对中的峰谷距离在预定范围内且峰谷比值大于第五预定阈值,所述第二预定条件为峰谷对中的峰值和谷值之中较大值大于预定中值且较小值小于所述预定中值,且该峰谷对与其前一个峰谷对之间的预定比例小于第六预定阈值,其中,所述预定中值为所述连续的第一预定数量个峰谷对中最后一个峰谷对的峰值与谷值的中值,所述预定比例为该峰谷对和其前一个峰谷对中较大的峰谷比值与较小的峰谷比值之间的比值,其中,所述峰谷距离为峰值与谷值之间的时间距离,所述峰谷比值为峰值和谷值之中较大值与较小值之间的比值。
[0011]可选地,所述基于所述基音频率序列,对所述目标音频数据执行音调技巧检测,还包括:基于所述颤音的起始时间和终止时间,确定所述颤音的持续时间范围,其中,所述颤音的起始时间为在所述连续的第一预定数量个峰谷对之前的最近一个峰值或谷值处,所述颤音的终止时间为所述连续的第一预定数量个峰谷对之后满足所述第一预定条件和第二预定条件的连续的峰谷对中的最后一个峰值或谷值处;基于所述持续时间范围的每个峰谷对中的峰谷距离,确定所述颤音的颤动频率;基于所述持续时间范围的每个峰谷对中的峰谷比值,确定所述颤音的颤动幅度。
[0012]可选地,所述基于所述基音频率序列,对所述目标音频数据执行音调技巧检测,包括:在满足预设音符切分条件的情况下,对所述目标音频数据进行音符切分;针对经过音符切分后确定的音符执行音调技巧检测;其中,所述预设音符切分条件包括以下至少一种:确定所述目标音频数据的第一个音符在所述基音频率序列的第一个拐点处开始,其中,拐点为峰或谷;在一个音符结束之后检测到拐点,确定一个新音符在该拐点处开始;在一个音符开始之后检测到某一帧的基音频率为0的情况下,确定该音符在该帧结束;以及在一个音符开始之后检测到某一拐点之后连续的第三预定数量个拐点的拐点值与该拐点的拐点值之中较大值与较小值的比值均大于第七预定阈值,确定该音符在该拐点处结束。
[0013]可选地,所述对所述目标音频数据进行音符切分,包括:将颤音的持续时间范围内所有已检测到的音符的绝对音高值修改为由所述颤音的中心基音频率值计算的绝对音高值,其中,所述颤音的中心基音频率值为所述颤音中的预定峰谷对预定位置处的峰值与谷
值的中值;在所述所有已检测到的音符为多个音符的情况下,将所述多个音符合并为同一个音符。
[0014]可选地,所述针对经过音符切分后确定的音符执行音调技巧检测,包括:在当前音符中,在一个峰值与其左右相邻的谷值的比值都大于第八预定阈值且这两个谷值之中的较大值与较小值的比值小于第九预定阈值,确定在所述当前音符的该峰值处存在抖音技巧,其中,所述第八预定阈值大于所述第九预定阈值。
[0015]可选地,所述针对经过音符切分后确定的音符执行音调技巧检测,包括:确定当前音符的开始时间处到前一个音符的结束时间处之间的基音频率序列是否连续;在确定所述当前音符的开始时间处到所述前一个音符的结束时间处的基音频率序列不连续的情况下,确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频检测方法,其特征在于,包括:从采集的目标音频数据实时获取预定长度的音频数据;从所述预定长度的音频数据提取音频特征;将所述音频特征输入发声技巧检测模型进行检测处理,得到所述预定长度的音频数据中的发声技巧检出概率,其中,所述发声技巧检出概率包括预定多种发声技巧类型中的每种发声技巧类型在所述预定长度的音频数据中存在的概率;基于所述发声技巧检出概率,得到所述预定长度的音频数据中存在的发声技巧类型的检测结果。2.如权利要求1所述的音频检测方法,其特征在于,在所述基于所述发声技巧检出概率,得到所述预定长度的音频数据中存在的发声技巧类型的检测结果之后,还包括:基于从所述预定长度的音频数据中提取的音调特征,结合确定的发声技巧类型的音调特性,对所述检测结果进行调整。3.如权利要求2所述的音频检测方法,其特征在于,所述对所述确定的发声技巧类型的确定结果进行调整,包括以下步骤中的至少一个:在检测到所述预定长度的音频数据中存在假声技巧的情况下,获取所述预定长度的音频数据中的基音频率值的预定统计值,并在所述预定统计值小于第一预定阈值的情况下,确定所述预定长度的音频数据中不存在假声技巧;在检测到所述预定长度的音频数据中存在戏腔技巧的情况下,获取所述预定长度的音频数据中的基音频率值的预定统计值,并在所述预定统计值小于第二预定阈值的情况下,确定所述预定长度的音频数据中不存在戏腔技巧;在检测到所述预定长度的音频数据中存在美声技巧的情况下,获取所述预定长度的音频数据中的基音频率值的预定统计值,计算所述预定统计值的两个预定倍频位置的频谱能量之中较大频谱能量与较小频谱能量的比值,并在所述比值小于第三预定阈值的情况下,确定所述预定长度的音频数据中不存在美声技巧,其中,所述两个预定倍频为倍频值恰好大于和小于第四预定阈值的两个倍频。4.如权利要求1

3任一所述的音频检测方法,其特征在于,所述方法还包括:实时检测所述目标音频数据的每帧音频数据的基音频率值;基于实时检测的每帧音频数据的基音频率值,获得基音频率序列;基于所述基音频率序列,对所述目标音频数据执行音调技巧检测。5.如权利要求4所述的音频检测方法,其特征在于,所述基于所述基音频率序列,对所述目标音频数据执行音调技巧检测,包括:确定所述基音频率序列中按时间顺序存在的多个峰谷对,其中,每个峰谷对由所述基音频率序列中存在的相邻的峰值和谷值组成;在所述多个峰谷对中,在连续的第一预定数量个峰谷对满足第一预定条件,且在所述连续的第一预定数量个峰谷对之后连续的第二预定数量个峰谷对满足所述第一预定条件和第二预定条件的情况下,确定所述目标音频数据存在颤音技巧;其中,所述第一预定条件为峰谷对中的峰谷距离在预定范围内且峰谷比值大于第五预定阈值,所述第二预定条件为峰谷对中的峰值和谷值之中较大值大于预定中值且较小值小于所述预定中值,且该峰谷对与其前一个峰谷对之间的预定比例小于第六预定阈值,其中,
所述预定中值为所述连续的第一预定数量个峰谷对中最后一个峰谷对的峰值与谷值的中值,所述预定比例为该峰谷对和其前一个峰谷对中较大的峰谷比值与较小的峰谷比值之间的比值,其中,所述峰谷距离为峰值与谷值之间的时间距离,所述峰谷比值为峰值和谷值之中较大值与较小值之间的比值。6.如权利要求4所述的音频检测方法,其特征在于,所述基于所述基音频率序列,对所述目标音频数据执行音调技巧检测,包括:在满足预设音符切分条件的情况下,对所述目标音频数据进行音符切分;针对经过音符切分后确定的音符执行音调技巧检测;其中,所述预设音符切分条件包括以下至少一种:确定所述目标音频数据的第一个音符在所述基音频率序列的第一个拐点处开始,其中,拐点为峰或谷;在一个音符结束之后检测到拐点,确定一个新音符在该拐点处开始;在一个音符开始之后检测到某一帧的基音频率为零,确定该音符在该帧结束;在一个音符开始之后检测到某一拐点之后连续的第三预定数量个拐点的拐点值与该拐点的拐点值之中较大值与较小值的比值均大于第七预定阈值,确定该音符在该拐点处结束。7.如权利要求6所述的音频检测方法,其特征在于,所述对所述目标音频数据进行音符切分,包括:将颤音的持续时间范围内所有已检测到的音符的绝对音高值修改为由所述颤音的中心基音频率值计算的绝对音高值,其中,所述颤音的中心基音频率值为所述颤音中的预定峰谷对预定位置处的峰值与谷值的中值;在所述所有已检测到的音符为多个音符的情况下,将所述多个音符合并为同一个音符。8.如权利要求6所述的音频检测方法,其特征在于,所述针对经过音符切分后确定的音符执行音调技巧检测,包括:在当前音符中,在一个峰值与其左右相邻的谷值的比值都大于第八预定阈值且这两个谷值之中的较大值与较小值的比值小于第九预定阈值,确定在所述当前音符的该峰值处存在抖音技巧,其中,所述第八预定阈值大于所述第九预定阈值。9.如权利要求6所述的音频检测方法,其特征在于,所述针对经过音符切分后确定的音符执行音调技巧检测,包括:确定当前音符的开始时间处到前一个音符的结束时间处之间的基音频率序列是否连续,在确定所述当前音符的开始时间处到所述前一个音符的结束时间处的基...

【专利技术属性】
技术研发人员:魏耀都任新蕾郑羲光张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1