【技术实现步骤摘要】
一种基于循环Transformer的图像信息提取模型、方法及其应用
[0001]本专利技术涉及计算机视觉
,更具体的说是涉及一种基于循环Transformer的图像信息提取模型、方法及其应用。
技术介绍
[0002]图像分类、目标检测与语义分割是计算机视觉、模式识别与机器学习领域非常活跃的研究方向,在很多领域得到广泛应用,包括安防领域的人脸识别、行人检测、智能视频分析、行人跟踪等,交通领域的车辆自动驾驶、交通场景物体识别、车辆计数、逆行检测、车牌检测与识别,以及互联网领域的基于内容的图像检索、相册自动归类等。
[0003]传统方法上,早在2006年之前,已有人提出卷积神经网络(Convolution Neural Network)作为图像领域的深度学习结构,通过对图像进行卷积操作,引入了卷积层和池化层以处理具有位移不变性的图像数据,提取图像特征用于后续任务;何恺明等提出ResNet(Residual Neural Network),引入捷径连接技术(shortcut connections),提高了模型的识别准 ...
【技术保护点】
【技术特征摘要】
1.一种基于循环Transformer的图像信息提取模型,其特征在于,包括:图像分块处理模块、线性嵌入编码模块、第一多尺度循环模块和循环处理系统并依次相连;所述图像分块处理模块,用于获取原始图像,并将所述原始图像划分为m个尺度下的图像分块;所述线性嵌入编码模块,用于获取所述图像处理分块模块划分得到的所述图像分块,并将所述原始图像的每一个分块之内的像素点拉平至一列,同时将原有每个像素点的特征维度通过线性层映射到编码维度C,得到编码后图像分块;所述第一多尺度循环模块,用于将所述编码后图像分块进行循环采样操作,得到不同尺度下的特征信息,并将所得到的不同尺度下的特征信息拼接在一起,使用自注意力机制将不同尺度的特征信息进行融合,使得每个尺度下的特征信息根据其他尺度下的特征信息进行更新,将更新后的特征信息发送至所述循环处理系统;所述循环处理系统中包括n个循环子系统并依次相连,每个所述循环子系统中均包括图像分块融合模块和第二多尺度循环模块;所述图像分块融合模块与所述第二多尺度循环模块相连,用于将所述编码后图像分块中相邻的2
×
2个分块在特征维度上进行拼接合成为一个特征维度为4C的融合分块,再将所述融合分块通过线性层将特征维度从4C变换为2C,得到融合后的像素分块;所述第二多尺度循环模块,用于对所述像素分块进行循环采样操作,得到不同尺度下的特征信息,并将所得到的不同尺度下的特征信息拼接在一起,使用自注意力机制将不同尺度的特征信息进行融合。2.根据权利要求1所述的一种基于循环Transformer的图像信息提取模型,其特征在于,所述第一多尺度循环模块和所述第二多尺度循环模块中均包括:循环采样单元、多尺度融合单元、自注意力单元和按通道卷积单元;所述循环采样单元,用于在所述图像分块或所述编码后图像分块之间进行循环采样操作,对采样到的分块应用自注意力机制,经过信息交互和提取后得到不同尺度下的特征信息;所述多尺度融合单元,用于对三个尺度下的特征信息进行融合后,使每个尺度下的特征信息根据其他尺度下的特征信息进行更新;所述自注意力单元,用于从其他尺度获得的特征信息进一步在各个尺度上进行特征信息的交换与提炼,综合性考虑全局特征信息;所述按通道卷积单元,用于利用卷积神经网络按通道对所述图像分块或所述编码后图像分块进行卷积操作,并与所述自注意力单元的输出进行结合,得到特征值构成保留原始相对位置关系的特征图。3.根据权利要求2所述的一种基于循环Transformer的图像信息提取模型,其特征在于,所述循环采样单元包括分块内局部自注意力机制子单元、行内自注意力机制子单元或列内自注意力机制子单元;所述分块内局部自注意力机制子单元,用于对所述图像分块或所述编码后图像分块内部的有限的像素点所含的信息进行局部自注意力操作,在每一个分块内部提取和归纳图像信息;所述行内自注意力机制子单元,用于在图像分块的行上进行不同分块之间的信息交流
与互通;所述列内自注意力机制子单元,用于在图像分块的列上进行不同分块之间的信息交流与互通。4.权利要求3所述的一种基于循环Transformer的图像信息提取模型,其特征在于,同一列内的像素点组成一个图像分块,所述行内自注意力机制子单元在图像分块的行上进行不同分块之间的信息交流与互通的具体方法为:当一行内包括a个像素点时,在第一行选取第一个像素点,第二行选取第二个像...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。