【技术实现步骤摘要】
基于注意力机制和感受野的YOLOv5在识别图像缺损中的应用
[0001]本专利技术涉及唐卡图像识别
,具体为基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用
。
技术介绍
[0002]唐卡图像兴起于松赞干布时期,它是用彩缎装裱而成的宗教卷轴画,它在西藏历史的发展长河中汲取各方文化的优点,形成了自己独特的文化艺术,保留记录了西藏历史长河的政治
、
宗教
、
经济
、
历史
、
社会生活的各个方面,被称为“西藏文化的百科全书”。
[0003]国家对于文化遗产从传统的认定
、
记录
、
建档保护提升至对受损的文化遗产进行修复
。
唐卡图像由于其制作材料的特殊性,其保存难度大幅增加,而且其也容易受到外界环境因素的损坏,在检测和修复的保护过程中,也会对脆弱的唐卡再次造成伤害
。
因此使用数字化处理已经成为文物保护和修复的重要途经和趋势
。
[ ...
【技术保护点】
【技术特征摘要】
1.
基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述整体网络架构中分别包含改进网络架构
、
损失函数计算和训练测试流程,所述改进网络架构中部分别包含有网络模块的架构设计与优化
、scse
模块化调整
、CA
模块特征获取
、
感受野检测机制
。2.
根据权利要求1所述的基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述改进网络架构是根据唐卡数据集的特点以及其目标缺陷区域独有的特征结合缺陷检测的优缺点,提出了基于注意力机制和感受野的
YOLOv5
算法用来对唐卡图像的缺陷区域进行检测,主要工作着手于对网络的感受野进行设计及优化
、
网络的整体架构的设计及优化
、
与其他不同网络在相同数据集上应用所获得的实验数据进行对比以及数据分析并且对损失函数和激活函数的改进等方面的工作
。3.
根据权利要求1所述的基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述网络模块的架构设计与优化是在原网络的基础上导入
scSE
网络模块;
A、
对网络的空间和和通道之间的关系进行优化,从而使得从
Backbone
输出的
featuremap
能够进一步的在网络中得到学习,对其特征进行再进一步的优化和提纯操作,使得网络更好的学习到目标区域的特征;
B、
对网络导入
CA
模块,
CA
模块不仅能够通过对跨通道的特征信息进行融合还能捕获到方向感知和位置感知的信息,从而使得网络能够具有更好的特征学习率,并且减少了特征的丢失,能够使网络从不同方向位置信息获取更多相关性特征值从而更加精准的进行检测和定位;
C、
对网络增加感受野,增加感受野后能够使网络对于小目标的缺陷区域能够更好的学习其纹理和语义特征,从而减少小目标区域的漏检和误检的概率
。4.
根据权利要求1所述的基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述
scSE
模块对网络的特征进行重新规划调整,加大特征通道的权重,减少了背景区域特征的影响,从而用来改善分割的结果;
scSE
模块可以应用在
CNN
的任意层中,从而达到提升
CNN
编码空间信息的能力,提高网络对于图像的特征识别能力;
scSE
模块用于类似于
U
‑
Net
这样
encoder
‑
decoder
的网络组合形式,从而提升网络对
featuremap
的信息提炼;
cSE
模块通过将输入的特征图进行全局平均池化将其维度变为1×1×
C
,然后使用卷积对其进行信息处理得到
C
维的向量,将处理后的向量通过
Sigmoid
激活函数进行归一化,最后通过
channel
‑
wise
相乘得到校准过后的特征图;
sSE
模块通过对特征图直接进行卷积操作,将其变换为
H
×
W
×1的特征,然后通过
sigmoid
激活函数得到空间注意力图,最后将其与输入的特征进行特征融合,完成对空间信息的校准
。
最后将
cSE
和
sSE
模块的特征输出进行加权融合,得到
scSE
模块输出的特征图
。5.
根据权利要求1所述的基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述
CA
模块在获取特征时,不仅能够捕获跨通道的特征信息还能捕获到方向感知和位置感知的信息,这些优势可以帮助
CA
模块更加精准的定位和识别其目标区域;其次,
CA
模块属于轻量级模块且灵活,可以很容易进行部署在网络模型中用来通过强化信息表示的方式来增强特征;最后,
CA
能够可以在轻量级网络的基础上给下游的特征学习带来巨大的收益,尤其是多目标的检测定位任务
。
CA
模块在获取特征时,能够捕获跨通道的特征信息还能捕获到方向感知和位置感知的信息,通过坐标信息嵌入和坐标信息生成来对输入的特征进行编码,分别使用
H
×1和1×
W
的池化核分别沿着水平坐标方向和垂直坐标方向对每个通道进行信息编码,得到
H
×1×
C
和1×
W
×
C
的特征图,然后对得到不同方向的特征进行特征融合,返回一个对方向感知的注意力图
。
而这两种变换能够不仅能够使注意力模块捕捉到沿着一个空间方向上的长时间依赖,同时也能够保存沿着另外一个空间方向的精准位置信息,对于网络定位待检测目标有着更加准确的提升
。6.
根据权利要求1所述的基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述将原有网络的三通道检测机制进行增加感受野,将其扩充为四通道感受野检测机制,网络进一步融合了不同维度之间的语义信息和纹理信息,从而达到对小目标更加精细化处理
。7.
根据权利要求1所述的基于注意力机制和感受野的
YOLOv5
在识别图像缺损中的应用,其特征在于:所述
YOLOv5
网络的损失函数分为三部分,分别是坐标损失函数
(loss_giou)、
目标置信度损失
(loss_obj)
和目标分类损失
(loss_cls)
,最终的总损失为坐标损失
、
目标置信度损失和目标分类损失求和;而其中目标置信度误差损失和目标分类损失采用的就是交叉熵损失函数
(BCE)
,然后同时使用
GIoU
损失函数,来计算
bbox(boundingbox)
的得分损失
。
虽然
GIoU
相较于
IoU
而言增加了对其误检的惩罚力度,
GIoU
计算的是目标区域与检测到区域之间的交并关系,但是当目标框与网络检测框发生包含的情况时,就会严重影响其检测精度,因此使用
CIoU
损失函数替换原网络的
GIoU
,而
CIoU
计算的是真实区域和检测区域中心点的欧氏距离,因此能够有效的解决发生包含的情况,并且其能够对两个框之间从中心点距离进行归一化使得网络的收敛速度加快
。。。。CIoU
=1‑
IoU+R
CIoU
L
为交叉熵损失函...
【专利技术属性】
技术研发人员:褚燕利,陈军峰,郑晨,
申请(专利权)人:中国人民武装警察部队工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。