应用于电力设备巡检报告图文的模型预训练方法及设备技术

技术编号:39308526 阅读:15 留言:0更新日期:2023-11-12 15:55
本发明专利技术公开了一种应用于电力设备巡检报告图文的模型预训练方法及设备,所述方法包括:获取电力设备巡检报告中的图像和所述图像所对应的文本信息;将所述图像输入至预先配置的图像编码器,得到所述图像编码器输出的图像特征;将所述图像所对应的文本信息输入至预先配置的文本编码器,得到所述文本编码器输出的文本特征;基于所述图像特征和所述文本特征,进行特征匹配训练,以训练对比模型;存储训练完成的对比模型的模型参数。本发明专利技术实施例能够有效提升训练目标模型的效率,且在低资源计算设备中,可避免面向特定场景对应的模型所造成的效率损失。的效率损失。的效率损失。

【技术实现步骤摘要】
应用于电力设备巡检报告图文的模型预训练方法及设备


[0001]本专利技术涉及模型训练领域,尤其涉及一种应用于电力设备巡检报告图文的模型预训练方法及设备。

技术介绍

[0002]在电网领域的实际场景中,捕获设备状态信息的途径增多,数据传输效率的不断提升,终端系统中的信息存储量也随之增加,这使得应用于该领域的人工智能模型诸如图像检索模型、异常检测模型,需要扩充计算参数的规模。但在终端设备中,有限的计算资源限制了模型规模的上界,进而限制了模型性能的提升。对此,提出一个部署在大型计算设备上的预训练模型,可以有效降低模型应用在下游任务时对硬件环境的依赖,并降低其训练时间,提高相应速度。帮助相关工作人员提升分析问题和做出决策的效率。
[0003]在电力领域,以往的预训练方法通常针对图片或文本这种单一模态,导致预训练模型不能很好学习多模态的交互信息,进而限制了模型的适用范围。

技术实现思路

[0004]为了解决上述技术问题,本专利技术实施例提出了一种应用于电力设备巡检报告图文的模型预训练方法及设备。
[0005]本专利技术实施例提供了一种应用于电力设备巡检报告图文的模型预训练方法,包括:
[0006]获取电力设备巡检报告中的图像和所述图像所对应的文本信息;
[0007]将所述图像输入至预先配置的图像编码器,得到所述图像编码器输出的图像特征;
[0008]将所述图像所对应的文本信息输入至预先配置的文本编码器,得到所述文本编码器输出的文本特征;
[0009]基于所述图像特征和所述文本特征,进行特征匹配训练,以训练对比模型;其中,所述对比模型用于表征所述图像特征和所述文本特征之间的关联性;
[0010]存储训练完成的对比模型的模型参数。
[0011]进一步的,所述模型参数包括对比模型的输出结构参数;则,在所述存储训练完成的对比模型的模型参数之后,还包括:根据若干预设的电力设备下游任务一一对应调整所述输出结构参数,以使得所述对比模型输出与各个所述电力设备下游任务一一对应的输出结果。
[0012]进一步的,所述获取电力设备巡检报告中的图像和所述图像所对应的文本信息,具体包括:采用OCR模型从若干电力设备巡检报告中提取图像和文本描述;其中,所述文本描述包括线路名称、设备名称、缺陷描述和缺陷等级;构建由所述图像组成的图像列表;采用合并算法对提取到的文本描述进行迭代合并,得到用于表征设备描述信息的通用描述列表,去除所述通用描述列表中重复的字段后得到文本列表,通过并查集算法构建所述图像
列表与所述文本列表之间的映射关系,以使所述文本列表中的文本信息与所述图像列表中的图像一一对应。
[0013]进一步的,所述图像编码器包括卷积神经网络和Transformer编码器;则,所述将所述图像输入至预先配置的图像编码器,得到所述图像编码器输出的图像特征,具体包括:将所述图像裁剪为预设格式;将裁剪后的图像输入至包括卷积核和最大池化层的所述卷积神经网络,得到所述卷积神经网络输出的局部特征图;其中,所述局部特征图包括局部特征和关键特征,所述卷积核用于提取所述局部特征,所述最大池化层用于从所述局部特征中提取所述关键特征;将所述局部特征图输入至包括多头自注意力模块的Transformer编码器,得到所述Transformer编码器输出的图像特征;其中,所述多头自注意力模块用于对所述局部特征图进行计算得到全局特征。
[0014]进一步的,所述文本编码器包括k

gram文本抽取器和文本多头自注意力模块;则,所述将所述图像所对应的文本信息输入至预先配置的文本编码器,得到所述文本编码器输出的文本特征,具体包括:将所述图像所对应的文本信息输入至所述k

gram文本抽取器,以对所述图像所对应的文本信息进行分词处理,并对分词处理后的文本信息进行嵌入表示处理;将嵌入表示处理后的文本信息输入至所述文本多头自注意力模块,得到所述文本多头自注意力模块输出的文本特征。
[0015]进一步的,所述基于所述图像特征和所述文本特征,进行特征匹配训练,以训练对比模型,具体包括:采用对比学习方法,对从若干电力设备巡检报告中获取到的若干图像特征和若干文本特征进行特征匹配训练。
[0016]进一步的,所述采用对比学习方法对所述图像特征和所述文本特征进行特征匹配训练,具体包括:对每一所述图像特征和每一所述文本特征均进行L2标准化处理;根据L2标准化处理后的图像特征和文本特征进行计算,得到交互特征矩阵;根据与所述交互特征矩阵对应的标签矩阵和预设的交叉熵损失函数,得到对比损失函数;当所述对比损失函数收敛时,输出训练完成的对比模型。
[0017]进一步的,所述交互特征矩阵的计算具体为:
[0018]logits=G
L2
()
·
G
L2
()
×
e
t
[0019]其中,logits为所述交互特征矩阵,G
L2
()为L2标准化处理后的图像特征,G
L2
()为L2标准化处理后的文本特征,t为学习训练的参数,e为自然指数;
[0020]所述交叉熵损失函数具体为:
[0021][0022]其中y
()
为真实样本值,为预测样本值,N为样本数;
[0023]所述对比损失函数具体为:
[0024][0025][0026][0027][0028]其中,M为特征维度,g表示矩阵行序号,k表示矩阵列序号,labels为构建得到的尺寸与logits一致的标签矩阵。
[0029]进一步的,所述根据若干预设的电力设备下游任务一一对应调整所述输出结构参数,以使得所述对比模型输出与各个所述电力设备下游任务一一对应的输出结果,具体包括:若所述电力设备下游任务为分类任务,则在所述对比模型的输出层上添加映射层和第一函数;其中,所述第一函数包括sigmoid和softmax函数;若所述电力设备下游任务为回归任务,则采用多层感知机作为所述对比模型的输出层;其中,所述多层感知机用于输出相关系数以表征匹配程度。
[0030]本专利技术实施例还提供了一种计算机设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的应用于电力设备巡检报告图文的模型预训练方法的步骤。
[0031]综上,本专利技术具有以下有益效果:
[0032]采用本专利技术实施例,可以自动获取并预处理训练数据,获取训练数据之后,可以利用训练数据和通用模型框架,训练得到目标模型。在训练目标模型时,基于通用模型框架进行模型训练,对于研发人员而言,其无需撰写与目标模型对应的软件代码,而是只需重点关注训练目标模型的训练数据和目标模型的预测任务即可,此外,能够有效提升训练目标模型的效率,且在低资源计算设备中,可避免面向特定场景对应的模型所造成的效率损失,提升训练效率。
附图说明
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于电力设备巡检报告图文的模型预训练方法,其特征在于,包括:获取电力设备巡检报告中的图像和所述图像所对应的文本信息;将所述图像输入至预先配置的图像编码器,得到所述图像编码器输出的图像特征;将所述图像所对应的文本信息输入至预先配置的文本编码器,得到所述文本编码器输出的文本特征;基于所述图像特征和所述文本特征,进行特征匹配训练,以训练对比模型;其中,所述对比模型用于表征所述图像特征和所述文本特征之间的关联性;存储训练完成的对比模型的模型参数。2.如权利要求1所述的应用于电力设备巡检报告图文的模型预训练方法,其特征在于,所述模型参数包括对比模型的输出结构参数;则,在所述存储训练完成的对比模型的模型参数之后,还包括:根据若干预设的电力设备下游任务一一对应调整所述输出结构参数,以使得所述对比模型输出与各个所述电力设备下游任务一一对应的输出结果。3.如权利要求1所述的应用于电力设备巡检报告图文的模型预训练方法,其特征在于,所述获取电力设备巡检报告中的图像和所述图像所对应的文本信息,具体包括:采用OCR模型从若干电力设备巡检报告中提取图像和文本描述;其中,所述文本描述包括线路名称、设备名称、缺陷描述和缺陷等级;构建由所述图像组成的图像列表;采用合并算法对提取到的文本描述进行迭代合并,得到用于表征设备描述信息的通用描述列表,去除所述通用描述列表中重复的字段后得到文本列表,通过并查集算法构建所述图像列表与所述文本列表之间的映射关系,以使所述文本列表中的文本信息与所述图像列表中的图像一一对应。4.如权利要求1所述的应用于电力设备巡检报告图文的模型预训练方法,其特征在于,所述图像编码器包括卷积神经网络和Transformer编码器;则,所述将所述图像输入至预先配置的图像编码器,得到所述图像编码器输出的图像特征,具体包括:将所述图像裁剪为预设格式;将裁剪后的图像输入至包括卷积核和最大池化层的所述卷积神经网络,得到所述卷积神经网络输出的局部特征图;其中,所述局部特征图包括局部特征和关键特征,所述卷积核用于提取所述局部特征,所述最大池化层用于从所述局部特征中提取所述关键特征;将所述局部特征图输入至包括多头自注意力模块的Transformer编码器,得到所述Transformer编码器输出的图像特征;其中,所述多头自注意力模块用于对所述局部特征图进行计算得到全局特征。5.如权利要求1所述的应用于电力设备巡检报告图文的模型预训练方法,其特征在于,所述文本编码器包括k

gram文本抽取器和文本多头自注意力模块;则,所述将所述图像所对应的文本信息输入至预先配置的文本编码器,得到所述文本编码器输出的文本特征,具体包括:将所述图像所对应的文本信息输入至所述k

gram文本抽取器,以对所述图像所对应的文本信息进行分词...

【专利技术属性】
技术研发人员:赵宗罗赵志新李强强周波蒋良许毅罗良盛成海王立森俞腾飞李亚波吕捷帅万高姚毅滨孔令令胡宇芬周桀鹏
申请(专利权)人:国网浙江省电力有限公司杭州供电公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1