一种基于残差注意力Transformer的光学乐谱图像识别方法技术

技术编号:33124851 阅读:36 留言:0更新日期:2022-04-17 00:32
本发明专利技术提出了一种基于残差注意力Transformer的神经网络方法用于光学乐谱图像识别。该识别过程的步骤为:通过建立基于残差注意力Transformer的乐谱图像识别模型,提取乐谱图像中的音符序列特征;根据捕获的音符序列特征,将乐谱图像中的音符序列数字化。本发明专利技术采用预训练的浅层残差卷积神经网络初始化参数,并提取音符基本特征,接着利用循环神经网络对获得的音符特征和标签序列分别进行编码和解码,提取音符序列的关联信息;而基于残差注意力Transformer结构,对重点关注区域加强关注,抑制无关区域的关注,进一步提取音符序列上下文特征;同时,当训练模型时,使用并行计算的统一掩码语言模型,有效地降低了音符序列错误率,缩短了模型训练时间。缩短了模型训练时间。缩短了模型训练时间。

【技术实现步骤摘要】
一种基于残差注意力Transformer的光学乐谱图像识别方法


[0001]本专利技术涉及乐谱图像数字化
,具体涉及一种基于残差注意力Transformer的光学乐谱图像识别方法。

技术介绍

[0002]随着计算机技术的飞速发展,文本、图像、音频等内容正逐步被转化为数字化信息资源保存、开发利用和传播,其中,纸介质乐谱的数字化对于数字音乐图书馆、计算机音乐辅助教学和音乐信息检索的发展十分重要。纸介质乐谱的数字化就是利用计算机将纸质乐谱内容转换为数字化的音乐格式文件(如MIDI文件)——即光学乐谱识别技术。通过光学乐谱识别技术将乐谱数字化后存储在计算机中,不仅存贮空间小,传播范围广、速度快,而且相比纸质乐谱更容易长时间完好保存。另外,数字化乐谱使得传统手工方式的乐曲创作、修改、演奏、传播变得高级,为人类的音乐活动带来了生产方式的根本变革。再者,用户在使用数字化乐谱时不仅可以通过关键字(如曲名、作者、发表年代等信息)进行文本检索,还可以基于音乐内容(如某段旋律)进行检索,从而查询到想要的乐曲。这些功能的实现依赖于不断进步的光学乐谱识别技术,然而本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于残差注意力Transformer的光学乐谱图像识别方法,其特征是,所述方法包括以下步骤:S1:获取待识别的光学乐谱图像并预处理;所述步骤S1对待识别的乐谱图像预处理具体包括以下步骤:S1

1:获取待识别乐谱图像的列像素和;S1

2:根据上述所求列像素和,去除图像中非音符范围的像素,只保留所有的音符像素并将其按原顺序拼接成预处理后的乐谱图像;S2:通过预先训练好的基于残差注意力Transformer的光学乐谱图像识别模型,提取所述待识别乐谱图像中的音符序列特征;所述步骤S2具体包括以下步骤:S2

1:基于残差注意力Transformer的光学乐谱图像识别模型由一个编码器层、一个解码器层和一个注意力层构成;S2

2:预处理后的乐谱图像首先被输入到编码器层,编码器层由浅层的预训练Resnet网络和两层双向的LSTM神经网络组成,并且在Resnet网络的输出与最后一层LSTM网络的输出之间建立一个残差连接,然后得到编码器层的输出特征图 Enc∈R
B
×
L
ˊ
×
C
ˊ
;其中Resnet网络提取音符的基本特征,而LSTM网络提取音符序列上下文信息;在解码器层,标签序列先被Embedding,再经过两层LSTM神经网络进行信息提取,得到解码器层的输出特征图 Dec∈R
B
×
L
ˊ
×
C
ˊ
;S2

3:将编码器层与解码器层的输出特征图进行维度拼接,再加上对其Positional Encoding后的值,共同作为注意力层的输入;在注意力层中,利用残差注意力机制学习权重分布系数,对重点关注区域加强关注,抑制无关区域的关注,进一步捕获音符序列的特征信息;同时采用并行计算的统一掩码语言模型防止泄露未来信息和加快模型训练;最后,注意力层的最后一层输出特征信息向量;S3:根据获得的音符序列特征,利用所述识别模型对所述待识别的光学乐谱图像内容进行分析与识别,得到数字化音符序列。2.如权利要求1所述的基于残差注意力Transformer的光学乐谱图像识别方法,其特征是,所述步骤S2

2中LSTM网络结构的门控单元可分别用公式表示为:f
t =σ(W
f
·
[h
t
‑1, r
t
] + b
f
)i
t =σ(W
i
·
[h
t
‑1, r
t
] + b
i
)o
t =σ(W
o
·
[h
t
‑1, r
t
] + b
o
)其中, f
t
、i
t
、 o
t
分别表示遗忘门、输入门、输出门, h
t
‑1表示上一个时刻 t

1的输出, r
t
表示当前时刻 t的输入,σ(
·
) 表示 sigmoid函数,W
f 、 W
i
、 W
o
、 b
f
、 b
i
、 b
o
均为参数;单元状态更新部分可用公式表示为:C
t = f
t * C
t

1 + i
t * C
t

其中, C
t
‑1、 C
t
分别表示 t

1、 t时刻的记忆状态, C
t

= tanh(W
i
·
[h
t
‑1, r
t
...

【专利技术属性】
技术研发人员:温翠红朱龙娇刘嘉怡
申请(专利权)人:湖南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1