一种基于多模态信息的图像解析方法及系统技术方案

技术编号：39307096 阅读：14 留言：0更新日期：2023-11-12 15:54

本申请提供一种基于多模态信息的图像解析方法及系统，所述方法包括以下步骤：S1：设计基于多模态信息的图像解析模型，所述基于多模态信息的图像解析模型包括视觉特征提取模块、文本信息处理模块、多模态特征融合模块和图像解析结果生成模块；S2：训练所述基于多模态信息的图像解析模型，得到训练好的基于多模态信息的图像解析模型；S3：采用训练好的基于多模态信息的图像解析模型解析图片，对多场景下的安全作业风险进行判别。本申请通过利用多模态特征融合的方法，采用多种损失函数，将图像和文本等多种模态中的信息结合起来进行图像解析，通过综合利用不同模态的信息，提高了图像解析的准确性和全面性。解析的准确性和全面性。解析的准确性和全面性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态信息的图像解析方法及系统

[0001]本申请涉及图像理解领域，尤其涉及一种基于多模态信息的图像解析方法及系统。

技术介绍

[0002]互联网时代正在快速发展，视觉分析成为了图像的研究热点。视觉分析在图像理解领域显得尤为重要。现有技术中，图像解析是一项重要的任务，可以从图像中提取有用的信息和特征，用于图像分类、目标检测、场景理解等应用。然而，传统的图像解析方法主要依赖于单一模态的信息，例如图像像素值或基于图像的特征提取。这种单模态方法在某些情况下可能存在局限性，无法充分利用多模态信息的丰富性。
[0003]随着多模态数据的广泛应用，基于多模态信息的图像解析方法成为研究的热点。多模态信息包括图像、文本、语音、视频等不同模态的数据，这些信息相互关联并可以提供更全面和准确的图像理解和分析。通过综合利用多模态信息，可以实现更高级别的图像解析任务，如图像描述生成、多模态检索。
[0004]公开号为CN109977956A的中国专利公开了“一种图像处理方法、装置、电子设备以及存储介质”，该专利技术可以获取包含文本对象的目标图像，在所述目标图像中确定与所述文本对象相关联的文本图像区域，但是采用该专利技术，仅能提高识别图像中文本位置的效率，无法做到对多模态信息下的图像做到精准解析，往往会因为多行业场景下的一些不可控原因而影响后续的分析和评估结果的准确性。
[0005]因此，寻找一种能够在多模态信息下，提高图像解析的准确性和全面性的方法是本领域技术人员亟待解决的技术问题。

技术实现思路
/>[0006]针对现有技术的以上缺陷或者改进需求，本专利技术提供了一种基于多模态信息的图像解析方法，旨在充分利用多模态信息的丰富性，提高图像解析的准确性和全面性。
[0007]为实现上述目的，按照本专利技术的一个方面，提供了一种基于多模态信息的图像解析方法，所述方法包括以下步骤：S1：设计基于多模态信息的图像解析模型，所述基于多模态信息的图像解析模型包括视觉特征提取模块、文本信息处理模块、多模态特征融合模块和图像解析结果生成模块；所述视觉特征提取模块用于将原始图像中的特征提取出来，经过处理得到图像特征向量；所述文本信息处理模块用于将原始文本中的特征提取出来，经过处理得到文本特征向量；所述多模态特征融合模块用于将所述视觉特征提取模块得到的图像特征向量和所述文本信息处理模块得到的文本特征向量进行特征融合，得到多模态特征；
所述图像解析结果生成模块用于将所述多模态特征融合模块得到的多模态特征输入到Transformer解码器进行解码处理，将解码器输出的特征转换为检测结果并输出；S2：训练所述基于多模态信息的图像解析模型，得到训练好的基于多模态信息的图像解析模型；S3：采用训练好的基于多模态信息的图像解析模型解析图像，对多场景下的安全作业风险进行判别。
[0008]作为本申请一实施例，所述步骤S1中视觉特征提取模块的步骤具体包括：S111：输入原始图像，通过卷积神经网络从原始图像中提取出不同层次和尺度的特征，卷积神经网络堆叠了多个卷积层、激活函数和池化层，通过卷积神经网络处理后得到每幅图像的特定特征空间；S112：将所述每幅图像的特定特征空间进行自适应平均池化，将不同尺寸的特征图转换为固定尺寸的特征向量；S113：引入自注意力机制，对特征向量进行加权组合；S114：将所述特征向量通过两个分支，第一个分支不做任何处理，保留原始特征向量，第二个分支先通过1
×
1卷积、3
×
3卷积和1
×
1卷积进行特征维度变换和非线性变换，再通过1
×
1、3
×
3和5
×
5卷积核并行卷积以进一步捕捉多尺度特征；S115：将经过处理的第二个分支的多尺度特征向量与第一个分支的原始特征向量进行相加，融合在一起；S116：引入ReLU激活函数，对融合后的特征进行非线性映射，得到图像特征向量，所述图像特征向量即为视觉特征提取模块的编码结果。
[0009]作为本申请一实施例，所述步骤S1中文本信息处理模块的步骤具体包括：S121：输入原始文本，通过词嵌入将原始文本中的每个单词映射为固定维度的向量表示，再将经过词嵌入处理的文本序列输入到序列编码器中；S122：通过循环神经网络逐步处理输入的文本序列，捕捉上下文信息和语义关联，并对经过序列编码器处理得到的序列编码后的特征进行加权融合；S123：引入注意力机制，关注经过循环神经网络处理的文本序列中重要的单词及语义片段；S124：将融合后的特征输入到上下文编码器中，通过双向循环神经网络同时考虑正向和反向的隐藏状态；S125：应用特征金字塔网络对上下文编码后的特征进行多尺度的处理和融合；S126：引入全连接层对通过特征金字塔网络处理得到的特征进行维度变换和非线性映射，得到文本特征向量，所述文本特征向量即为文本信息处理模块的编码结果。
[0010]作为本申请一实施例，所述步骤S1中多模态特征融合模块的步骤具体包括：S131：将所述图像特征向量和文本特征向量进行关联度分析，通过特征对齐将来自不同模态的特征进行有效的比较和融合；S132：将图像特征向量和文本特征向量按通道拼接的方式进行特征融合；S133：通过深层处理，进行多层卷积、池化与全连接层协同操作，提取高级语义信息，减少特征的维度，捕捉融合后特征的抽象表示，输出多模态特征。
[0011]作为本申请一实施例，所述步骤S1中图像解析结果生成模块的步骤具体包括：
S141：将经过特征融合后的多模态特征输入到Transformer解码器进行解码处理，Transformer利用自注意力机制和前馈神经网络，在解码过程中动态地捕捉多模态特征之间的相关性，并逐步生成解析结果；S142：引入交叉注意力机制，建立图像与文本之间的跨模态关联，计算图像特征与文本特征之间的注意力权重，模型能够动态地捕捉到图像特征与文本特征之间的重要关系，并相应地调整解码的输出；S143：采用特征金字塔网络对解码器的输出特征进行处理，捕捉不同层次的语义信息和上下文关系；S144：引入自注意力机制，学习到图像内部不同区域之间的关联性，并将注意力集中到重要的图像区域上；S145：采用全连接层对解码器输出的特征进行维度变换和非线性映射，将解码器的输出映射到最终的检测结果空间，产生最终的检测结果并输出。
[0012]作为本申请一实施例，所述步骤S2训练所述基于多模态信息的图像解析模型具体包括：S21：设计损失函数，所述损失函数包括图像重建损失函数、文本重建损失函数和特征对齐损失函数；S22：调节训练参数；S23：训练模型，训练时计算损失函数并进行迭代，查看损失函数图像，若图像未收敛，再次对模型进行训练，若模型收敛，得出最优的基于多模态信息的图像解析模型作为本申请一实施例，所述步骤S21具体包括；所述图像重建损失函数通过像素级别的损失、结构相似性指数损失和感知损失来衡量重建图像与原始图像之间的差异；所述像素级别的损失用于衡量重建图像与原始图像之间在像素级别上的差异，其公式如下：
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息的图像解析方法，其特征在于，所述方法包括以下步骤：S1：设计基于多模态信息的图像解析模型，所述基于多模态信息的图像解析模型包括视觉特征提取模块、文本信息处理模块、多模态特征融合模块和图像解析结果生成模块；所述视觉特征提取模块用于将原始图像中的特征提取出来，经过处理得到图像特征向量；所述文本信息处理模块用于将原始文本中的特征提取出来，经过处理得到文本特征向量；所述多模态特征融合模块用于将所述视觉特征提取模块得到的图像特征向量和所述文本信息处理模块得到的文本特征向量进行特征融合，得到多模态特征；所述图像解析结果生成模块用于将所述多模态特征融合模块得到的多模态特征输入到Transformer解码器进行解码处理，将解码器输出的特征转换为检测结果并输出；S2：训练所述基于多模态信息的图像解析模型，得到训练好的基于多模态信息的图像解析模型；S3：采用训练好的基于多模态信息的图像解析模型解析图像，对多场景下的安全作业风险进行判别。2.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S1中视觉特征提取模块的步骤具体包括：S111：输入原始图像，通过卷积神经网络从原始图像中提取出不同层次和尺度的特征，卷积神经网络堆叠了多个卷积层、激活函数和池化层，通过卷积神经网络处理后得到每幅图像的特定特征空间；S112：将所述每幅图像的特定特征空间进行自适应平均池化，将不同尺寸的特征图转换为固定尺寸的特征向量；S113：引入自注意力机制，对特征向量进行加权组合；S114：将所述特征向量通过两个分支，第一个分支不做任何处理，保留原始特征向量，第二个分支先通过1
×
1卷积、3
×
3卷积和1
×
1卷积进行特征维度变换和非线性变换，再通过1
×
1、3
×
3和5
×
5卷积核并行卷积以进一步捕捉多尺度特征；S115：将经过处理的第二个分支的多尺度特征向量与第一个分支的原始特征向量进行相加，融合在一起；S116：引入ReLU激活函数，对融合后的特征进行非线性映射，得到图像特征向量，所述图像特征向量即为视觉特征提取模块的编码结果。3.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S1中文本信息处理模块的步骤具体包括：S121：输入原始文本，通过词嵌入将原始文本中的每个单词映射为固定维度的向量表示，再将经过词嵌入处理的文本序列输入到序列编码器中；S122：通过循环神经网络逐步处理输入的文本序列，捕捉上下文信息和语义关联，并对经过序列编码器处理得到的序列编码后的特征进行加权融合；S123：引入注意力机制，关注经过循环神经网络处理的文本序列中重要的单词及语义片段；S124：将融合后的特征输入到上下文编码器中，通过双向循环神经网络同时考虑正向
和反向的隐藏状态；S125：应用特征金字塔网络对上下文编码后的特征进行多尺度的处理和融合；S126：引入全连接层对通过特征金字塔网络处理得到的特征进行维度变换和非线性映射，得到文本特征向量，所述文本特征向量即为文本信息处理模块的编码结果。4.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S1中多模态特征融合模块的步骤具体包括：S131：将所述图像特征向量和文本特征向量进行关联度分析，通过特征对齐将来自不同模态的特征进行有效的比较和融合；S132：将图像特征向量和文本特征向量按通道拼接的方式进行特征融合；S133：通过深层处理，进行多层卷积、池化与全连接层协同操作，提取高级语义信息，减少特征的维度，捕捉融合后特征的抽象表示，输出多模态特征。5.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S1中图像解析结果生成模块的步骤具体包括：S141：将经过特征融合后的多模态特征输入到Transformer解码器进行解码处理，Transformer利用自注意力机制和前馈神经网络，在解码过程中动态地捕捉多模态特征之间的相关性，并逐步生成解析结果；S142：引入交叉注意力机制，建立图像与文本之间的跨模态关联，计算图像特征与文本特征之间的注意力权重，模型能够动态地捕捉到图像特征与文本特征之间的重要关系，并相应地调整解码的输出；S143：采用特征金字塔网络对解码器的输出特征进行处理，捕捉不同层次的语义信息和上下文关系；S144：引入自注意力机制，学习到图像内部不同区域之间的关联性，并将注意力集中到重要的图像区域上；S145：采用全连接层对解码器输出的特征进行维度变换和非线性映射，将解码器的输出映射到最终的检测结果空间，产生最终的检测结果并输出。6.如权利要求1所述的一种基于多模态信息的图像解析方法，其特征在于，所述步骤S2训练所述基...

【专利技术属性】
技术研发人员：姜明华，陈余焜，余锋，刘莉，周昌龙，宋坤芳，
申请(专利权)人：武汉纺织大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人