当前位置: 首页 > 专利查询>西北大学专利>正文

一种基于压缩激励块的音高估计方法技术

技术编号:44472023 阅读:19 留言:0更新日期:2025-03-04 17:42
本申请涉及一种基于压缩激励块的音高估计方法,将音频文件转换为对数梅尔频谱图,从而将输入的音频转换为更加易于机器理解的高级表示,筛除冗余信息,保留并强化有助于音高提取的信息。采用压缩激励块对对数梅尔频谱图进行特征提取,提取音频全局特征;同时引入自注意力机制对局部的重要特征进行提取,通过编解码结构获得输入音频对应的音高表示内容,经过估计模块得到音高概率矩阵,根据音高概率矩阵最终确定音频文件的音高估计结果。本申请有效解决了对戏曲音频的音高估计困难的问题,提高了对人声音乐音高预测结果的准确性。

【技术实现步骤摘要】

本申请涉及音高估计领域,具体地,涉及一种基于压缩激励块的音高估计方法


技术介绍

1、戏曲艺术作为中国传统文化中的瑰宝,具有鲜明的艺术特点和深厚的文化内涵。它集音乐、表演、舞蹈、文学等多种艺术形式于一体,通过做、打、唱、念等多重表现手法,形成了独具特色的艺术体系。在戏曲中,音乐和唱腔是核心元素,贯穿整个表演过程,并在叙事、情感表达和人物塑造中起到至关重要的作用。与现代流行音乐或西方古典音乐相比,戏曲的旋律复杂多变,唱腔的音域跨度大,且富含微妙的音高变化,如滑音、装饰音、颤音等。戏曲艺术中的唱腔有着复杂的结构和风格,如京剧、越剧、豫剧等都有自己独特的声腔系统,这些声腔往往伴随着复杂的音高变换。音高在戏曲音乐中不仅仅是构成旋律的基础元素,它更是一种独特的艺术工具,通过细腻的音高变化,戏曲表演者能够生动地表达情感、塑造角色并推动剧情发展。在戏曲表演中,情感的传达往往依赖于音高的精细控制。音高的上扬、下滑、延展等微妙变化,能够表现出人物内心的激动、悲伤、愤怒、无奈等复杂情感。通过精确的音高估计技术,研究者能够深入探讨戏曲表演者如何利用音高变化来传达复杂的情感,并揭本文档来自技高网...

【技术保护点】

1.一种基于压缩激励块的音高估计方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述压缩激励块包括依次连接的反卷积层、残差卷积单元、卷积层、BN+ReLU层;所述残差卷积单元包括多个残差卷积层;所述对数梅尔频谱图输入到所述反卷积层进行上采样,得到上采样后的特征;所述上采样后的特征输入到所述残差卷积单元,每个残差卷积层对所述上采样后的特征进行残差卷积操作,每个残差卷积层的输出相加后,输入到所述卷积层进行卷积操作,得到卷积结果;所述卷积结果输入到所述BN+ReLU层进行批归一化,得到所述初步特征图。

3.如权利要求2所述的方法,其特征在于,所述残差卷...

【技术特征摘要】

1.一种基于压缩激励块的音高估计方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述压缩激励块包括依次连接的反卷积层、残差卷积单元、卷积层、bn+relu层;所述残差卷积单元包括多个残差卷积层;所述对数梅尔频谱图输入到所述反卷积层进行上采样,得到上采样后的特征;所述上采样后的特征输入到所述残差卷积单元,每个残差卷积层对所述上采样后的特征进行残差卷积操作,每个残差卷积层的输出相加后,输入到所述卷积层进行卷积操作,得到卷积结果;所述卷积结果输入到所述bn+relu层进行批归一化,得到所述初步特征图。

3.如权利要求2所述的方法,其特征在于,所述残差卷积层包括残差层、全局池化层、第一全连接层、第二全连接层和尺度变换层;所述残差层对所述上采样后的特征进行残差操作,得到残差结果;所述残差结果依次输入到所述全局池化层、所述第一全连接层、所述第二全连接层和所述尺度变换层,得到尺度变换后的特征;所述尺度变换后的特征、所述残差结果和所述上采样后的特征进行相加,得到残差卷积层的输出。

4.如权利要求1所述的...

【专利技术属性】
技术研发人员:王小凤李湛涛刘晓霞杨瑞龙任竹语程康余崇男刘阳洋耿国华
申请(专利权)人:西北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1