【技术实现步骤摘要】
歌声检测模型的训练方法、歌声检测方法、设备及介质
[0001]本申请涉及人工智能
,尤其涉及一种歌声检测模型的训练方法、歌声检测方法、设备及介质。
技术介绍
[0002]在歌声检测过程中常常需要对一段音乐中出现歌词的部分进行检测,常用的歌声检测方法大多数需要依赖于神经网络模型,而当前的神经网络模型由于缺乏大量的高质量训练样本进行训练,因而对声音的检测准确性不够高,因此,如何改善歌声检测模型检测歌声的准确性,成为了亟待解决的技术问题。
技术实现思路
[0003]本申请实施例的主要目的在于提出一种歌声检测模型的训练方法、歌声检测方法、设备及介质,旨在改善歌声检测模型检测歌声的准确性。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种歌声检测模型的训练方法,所述训练方法包括:
[0005]获取演唱对象的原始演唱数据,其中,所述原始演唱数据包括不含歌词的配乐音频和包含歌词的样本人声声谱;
[0006]基于预设的声源分离模型对所述原始演唱数据进行声源分离,去除所述配乐音频,得到 ...
【技术保护点】
【技术特征摘要】
1.一种歌声检测模型的训练方法,其特征在于,所述训练方法包括:获取演唱对象的原始演唱数据,其中,所述原始演唱数据包括不含歌词的配乐音频和包含歌词的样本人声声谱;基于预设的声源分离模型对所述原始演唱数据进行声源分离,去除所述配乐音频,得到所述样本人声声谱;对所述样本人声声谱和预设的参考音频进行音频融合,得到样本音频数据,所述参考音频为不包含歌词的音频数据;对所述样本音频数据进行分割处理,得到多个样本音频片段;将所述样本音频片段输入至预设的神经网络模型进行歌声检测,得到所述样本音频数据的样本歌声时间序列,所述样本歌声时间序列包含所述样本音频数据中存在歌词的时间段;基于所述样本歌声时间序列对所述神经网络模型的损失函数进行优化,以训练所述神经网络模型,得到歌声检测模型。2.根据权利要求1所述的训练方法,其特征在于,所述基于预设的声源分离模型对所述原始演唱数据进行声源分离,去除所述配乐音频,得到所述样本人声声谱,包括:基于所述声源分离模型对所述原始演唱数据进行分割处理,得到多个原始音频片段;基于所述声源分离模型对所述原始音频片段进行声源分类,得到每一所述原始音频片段的声源类型;根据所述声源类型,从所述原始演唱数据中分离出所述样本人声声谱。3.根据权利要求1所述的训练方法,其特征在于,所述对所述样本人声声谱和预设的参考音频进行音频融合,得到样本音频数据,包括:对所述样本人声声谱进行信号提取,得到样本音轨数据,并对所述参考音频进行信号提取,得到参考音轨数据;对所述样本音轨数据和所述参考音轨数据进行信号相加,得到所述样本音频数据。4.根据权利要求1所述的训练方法,其特征在于,所述将所述样本音频片段输入至预设的神经网络模型进行歌声检测,得到所述样本音频数据的样本歌声时间序列,包括:将所述样本音频片段输入至所述神经网络模型中,所述神经网络模型包括频谱变换层、卷积层、LSTM层、展平层以及全连接层;通过所述频谱变换层对所述样本音频片段进行频谱变换,得到样本梅尔倒谱特征;通过所述卷积层对所述样本梅尔倒谱特征进行特征提取,得到样本音频特征;通过所述LSTM层对每一所述样本音频特征进行上下文信息提取,得到中间音频特征;通过所述展平层对所述中间音频特征进行平滑处理,得到变维音频特征;通过所述全连接层对所述变维音频特征进行预测处理,得到每一所述样本音频片段存在歌词的概率值;根据所述概率值对所述样本音频片段进行筛选,得到样本歌声时间段,并根据所述样本歌声时间段,得到所述样本歌声时间序列。5.根据权利要求1至4任一项所述的训练方法,其特征在于,在所述基于预设的声源分离模型对所述原始演唱数据进行声源分离,去除所述配乐音频,得到所述样本人声声谱之前,所述方法还包括预先训练所述声源分离模型,具体包括:
获取训练音频文件,其中,每一所述训练音频文件包括第一音轨文件和第二音轨文件,所述第一...
【专利技术属性】
技术研发人员:张旭龙,王健宗,孙一夫,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。