一种基于目标检测和语言特征的音符级自动歌唱转录方法技术

技术编号：42604864 阅读：32 留言：0更新日期：2024-09-03 18:14

本发明专利技术提供了一种基于目标检测和语言特征的音符级自动歌唱转录方法，包括以下步骤；步骤1：通过Mel变换、音素分类、线性强度映射和切片的预处理方法将一维音频序列转换为具有相似宽高比的二维梅尔频谱图切片和音素后验图切片；步骤2：对梅尔频谱图和音素后验图切片进行目标检测，将目标检测所得边界框左右边界进行后处理和时间调整，再经过决策筛选获得最终起始时间和结束时间；步骤3：以目标检测边界框的下边界为基频，经过峰值搜索获得最终基频，再将最终基频转换获得MIDI音高值。该方法能有效提高音素特征提取效果、提升音素后验图质量以及提升特征提取和分析效果，从而提高转录准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于歌唱转录，具体涉及一种基于目标检测和语言特征的音符级自动歌唱转录方法。

技术介绍

1、音符级自动歌唱转录是最具代表性的音乐信息检索任务之一，可以从歌唱音频中预测音符的属性，即起始时间(onset)，结束时间(offset)和音高值(pitch)。尽管关于音符级歌唱转录的研究已有相当长的时间，但歌唱转录的效果通常不如钢琴等单一乐器的转录效果，其原因是歌声在音高、音色、动态性以及歌词的发音方面都具有高度多样化的表现力。例如颤音、滑音等歌唱技巧使得很难找到音符边界，并且缺乏大规模的标注数据集也是该项技术的主要障碍之一。

2、目前自动歌唱转录(ast)方法主要有三种。第一类方法采用端到端的方式获取帧级的起始、结束时间和音高概率，再通过后处理获取音符级的结果。例如先使用卷积神经网络(cnn)提取声谱图的高维特征，再使用全连接层获取帧级的转录结果。第二类方法先获取起始和结束时间，再通过音高提取获取音高。例如先使用correntropy检测起始和结束时间，再使用标准音高跟踪算法获取音高。第三类方法先进行基频(f0)跟踪获取帧...

【技术保护点】

1.一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤1.1具体为：

4.根据权利要求2所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤1.3中的计算公式如下：

5.根据权利要求2所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤2具体为：

...

【技术特征摘要】

1.一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，包括以下步骤；

2.根据权利要求1所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤1具体为：

3.根据权利要求2所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤1.1具体为：

4.根据权利要求2所述的一种基于目标检测和语言特征的音符级自动歌唱转录方法，其特征在于，所述步骤1.3中的计算公式如下：

5.根据权利要求2所述的一种基于目标检测和语言特征的音符级...

【专利技术属性】
技术研发人员：孟繁杰，曹颖，曹亚浩，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人