当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于图像-文本多模态融合的大坝形变评估方法技术

技术编号:39058318 阅读:20 留言:0更新日期:2023-10-12 19:51
本发明专利技术公开了一种基于图像

【技术实现步骤摘要】
一种基于图像

文本多模态融合的大坝形变评估方法


[0001]本专利技术属于水利大坝形变监测与评估领域,具体涉及一种基于图像

文本多模态融合的大坝形变评估方法。

技术介绍

[0002]我国至今共修建了10万多座水坝,是世界上水库大坝最多的国家之一。随着水资源的进一步开发利用,新建的高坝大库越来越多,这些工程在农业灌溉、防洪抗旱、水源配置、水力发电、城市供水、水土保持、生态环境保护等方面发挥了巨大效益。六、七十年代修建的一部分大坝,限于当时经济条件和科学技术水平等原因,存在设计标准偏低、地质、施工质量以及老化等安全问题,影响着水库综合效益的发挥,甚至给下游的城镇、交通及人们的生命财产造成威胁。因此,大坝安全问题成为日益突出的公共安全问题,必须得到高度重视。
[0003]大坝安全监测主要项目有:变形、渗流、压力、应力应变、水力学及环境量等。其中,变形监测最直观可靠,可基本反映在各种荷载作用下的大坝安全性态,因而成为最为重要的监测项目。变形监测主要包括表面变形、内部变形、坝基变形、裂缝及接缝、混凝土面板变形、岸坡位移等。其中,大坝表面变形监测主要包括观测垂直位移与观测水平位移。观测水平位移是指用观测仪器和设备对水工建筑物及地基有代表性的点位进行的水平方向位移量的量测,监测方法有视准线法、引张线法、激光准直法、垂线法、交会法和导线法等。
[0004]传统的工程监测方法往往需要消耗人力与物力,不能自动地观测水平位移。随着计算机在图像与自然语言等多模态特征提取方法的飞速发展,将领域知识与其领域图像信息交互,最终实现跨模态学习的预测。目前,以视觉图像与文本两类模态数据为研究对象,在视觉问答、图文匹配等方向取得了显著性的进展。因此,以同一区域、时间跨度长的大坝图像集,和大坝形变判别的文本知识为研究对象,以观测大坝表面水平位移形变为研究目的,一种基于图像一文本多模态融合的大坝形变视觉问答评估方法具有重要的实际意义。

技术实现思路

[0005]专利技术目的:为了克服现有技术中存在的不足,提供一种基于图像

文本多模态融合的大坝形变评估方法。
[0006]技术方案:为实现上述目的,本专利技术提供一种基于图像

文本多模态融合的大坝形变评估方法,包括如下步骤:
[0007]S1:通过定点的工业监控摄像机,采集大坝图像集,分别获取到先前图像和当前图像;
[0008]S2:根据先前图像和当前图像,获取到差分图像;
[0009]S3:利用特征金字塔FPN网络分别对先前图像与差分图像进行多尺度特征提取与融合,将得到的当前特征图像作为原始图像;
[0010]S4:对原始图像、大坝形变判别文本进行预处理;
[0011]S5:将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练,联合建模模态内和跨模态表示,得到预训练模型;
[0012]S6:利用大坝的先前图像、当前图像训练集以及有关大坝形变风险的问题文本训练集,优化调整预训练模型的参数,完成训练;
[0013]S7:利用步骤S6训练好的模型,根据测试集图像以及问题文本数据进行预测,获取到大坝形变评估结果。
[0014]进一步地,所述步骤S2中对先前图像和当前图像进行真彩色特征增强、特征差分,将当前的特征图像作为差分图像,具体过程包括如下步骤:
[0015]A1:采用一种基于PCA的彩色特征增强方法执行真彩色特征增强,在保证事物主导的颜色以及图像的色差对比度没有发生变化的前提下,图像的亮度发生了明显的增强;
[0016]A2:计算真彩色特征增强后的先前图像与当前图像的特征差分。先前图像的特征矩阵为src
init
,当前图像的特征矩阵为src
final
,那么特征差分d
src
表示为:
[0017][0018]进一步地,所述步骤A1的真彩色特征增强的具体过程为:
[0019]B1:分别将先前图像P
init
与当前图像P
final
按照RGB三通道标准化处理,均值为0,方差为1,保证RGB通道之间的相对关系,不改变三个通道内部的像素值分布;
[0020]B2:图像P
init
与P
final
按照通道展平为N
×
3的向量,记为向量I(θ),θ∈D;
[0021]B3:求向量I(θ)的协方差矩阵;
[0022]B4:对协方差矩阵进行特征分解,得到特征向量F(θ)与特征值λ(θ);
[0023]B5:将图像P
init
与P
final
的三个通道特征向量分别与处理后的特征向量相加,得到特征增强的图像。这里以图像P
init
的一个通道为例,公式如下,其中α为添加的抖动系数。
[0024]P
result
(θ)=P
init
(θ)+F(θ)
i
·
(a
i
·
λ(θ)
i
)
T
,θ,i∈D
[0025]进一步地,所述步骤S3具体为:
[0026]D1:先前图像与差分图像经过结构相同的主干网络ResNet50进行特征提取,将C2,C3,C4,C5阶段的最终输出特征经过1
×
1、步长为1的卷积操作,使之通道数为256,记为F2,F3,F4,F5;
[0027]D2:(水平操作)F5特征经过3
×
3、步长为1的卷积操作,输出P5图像特征;(从上至下垂直操作)F5特征上采样,使之特征图像的长宽扩大一倍,与F4特征形状一致并与之融合,然后进行3
×
3、步长为1的卷积操作,输出P4图像特征;以此类推,直至输出P2图像特征;
[0028]D3:经过FPN网络处理后的先前图像与差分图像输出特征记为F

θ
与F

θ
,θ表示层数量,这里θ=4,将每层两者的特征进行融合,将此时的特征作为原始图像特征,公式如下,其中表示特征concat相加,
[0029][0030]进一步地,所述步骤D1的具体操作过程为:
[0031]D1

1:C1阶段采用7
×
7、步长为2的卷积操作与3
×
3、步长为2的最大池化操作,通道数为64;
[0032]D1

2:C2至C5阶段之间的连接分为两个分支一主分支与shortcut分支;主分支均采用1
×
1、3
×
3、1
×
1且步长为1、2、1的卷积操作,称此为一个残差块,每个阶段之间分别采用3、4、6、3个残差块,通道数分别为256、512、1024、2048,使特征图像的长宽缩小一倍;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,包括如下步骤:S1:通过定点的工业监控摄像机,采集大坝图像集,分别获取到先前图像和当前图像;S2:根据先前图像和当前图像,获取到差分图像;S3:利用特征金字塔FPN网络分别对先前图像与差分图像进行多尺度特征提取与融合,将得到的当前特征图像作为原始图像;S4:对原始图像、大坝形变判别文本进行预处理;S5:将预处理后的图像与文本特征输入双流跨模态Transformer模型进行预训练,联合建模模态内和跨模态表示,得到预训练模型;S6:利用大坝的先前图像、当前图像训练集以及有关大坝形变风险的问题文本训练集,优化调整预训练模型的参数,完成训练;S7:利用步骤S6训练好的模型,根据测试集图像以及问题文本数据进行预测,获取到大坝形变评估结果。2.根据权利要求1所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S2中对先前图像和当前图像进行真彩色特征增强、特征差分,将当前的特征图像作为差分图像,具体过程包括如下步骤:A1:采用一种基于PCA的彩色特征增强方法执行真彩色特征增强;A2:计算真彩色特征增强后的先前图像与当前图像的特征差分。先前图像的特征矩阵为src
init
,当前图像的特征矩阵为src
final
,那么特征差分d
src
表示为:3.根据权利要求2所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤A1的真彩色特征增强的具体过程为:B1:分别将先前图像P
init
与当前图像P
final
按照RGB三通道标准化处理,均值为0,方差为1,保证RGB通道之间的相对关系,不改变三个通道内部的像素值分布;B2:图像P
init
与P
final
按照通道展平为N
×
3的向量,记为向量I(θ),θ∈D;B3:求向量I(θ)的协方差矩阵;B4:对协方差矩阵进行特征分解,得到特征向量F(θ)与特征值λ(θ);B5:将图像P
init
与P
final
的三个通道特征向量分别与处理后的特征向量相加,得到特征增强的图像。4.根据权利要求1所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S3具体为:D1:先前图像与差分图像经过结构相同的主干网络ResNet50进行特征提取,将C2,C3,C4,C5阶段的最终输出特征经过1
×
1、步长为1的卷积操作,使之通道数为256,记为F2,F3,F4,F5;D2:F5特征经过3
×
3、步长为1的卷积操作,输出P5图像特征;F5特征上采样,使之特征图像的长宽扩大一倍,与F4特征形状一致并与之融合,然后进行3
×
3、步长为1的卷积操作,输出P4图像特征;以此类推,直至输出P2图像特征;D3:经过FPN网络处理后的先前图像与差分图像输出特征记为F

θ
与F

θ
,θ表示层数量,将每层两者的特征进行融合,将此时的特征作为原始图像特征,公式如下,其中表示特征concat相加,
5.根据权利要求4所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤D1的具体操作过程为:D1

1:C1阶段采用7
×
7、步长为2的卷积操作与3
×
3、步长为2的最大池化操作,通道数为64;D1

2:C2至C5阶段之间的连接分为两个分支

主分支与shortcut分支;主分支均采用1
×
1、3
×
3、1
×
1且步长为1、2、1的卷积操作,称此为一个残差块,每个阶段之间分别采用3、4、6、3个残差块,通道数分别为256、512、1024、2048,使特征图像的长宽缩小一倍;shortcut分支采用1
×
1且步长为2的卷积操作,使之特征矩阵的形状与主分支相同。6.根据权利要求1所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S4中预处理操作为:用Faster R

CNN网络的RPN模块选择显著图像区域并提取区域特征,经过筛选,对每个保留区域,使用平均池化表示作为区域特征。7.根据权利要求6所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤S4中预处理操作具体包括如下步骤:E1:通过RPN结构对各尺度原始图像特征生成候选框;E2:将RPN生成的候选框投影到特征图上获得相应的特征矩阵,将每个特征矩阵通过ROI Pooling层缩放到7
×
7大小的特征图,通过一系列全连接层展平特征图,得到显著图像区域。8.根据权利要求7所述的一种基于图像

文本多模态融合的大坝形变评估方法,其特征在于,所述步骤E1的操作具体如下:E1

1:RPN结构采用3
×
3、步长为1的卷积充当滑动窗口,在各尺度原始图像的特征进行滑动,计算出各个滑动窗口中心点对应于原始图像上的中心点,滑动后特征图像与原始图像的映射公式如下:s
width
=w
origin
/w
feature
s
...

【专利技术属性】
技术研发人员:王龙宝张津豪储洪强毛莺池张雪洁徐淑芳徐荟华
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1