一种视觉问答方法、系统及服务器技术方案

技术编号:29528526 阅读:58 留言:0更新日期:2021-08-03 15:15
本发明专利技术提供一种视觉问答方法、系统及服务器,包括:获取输电设备的图像数据,图像数据包括视频数据和图片数据;预处理图像数据,得到原始数据集;对原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;对视觉问答数据集进行训练,得到视觉问答模型;输入问题文本和图片到视觉问答模型,得到视觉问答结果。本发明专利技术对图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。

【技术实现步骤摘要】
一种视觉问答方法、系统及服务器
本专利技术涉及一种视觉问答
,特别是涉及一种视觉问答方法、系统及服务器。
技术介绍
目前电力系统的输电设备巡检方式大致可以分为人工巡检和无人机巡检两种。其中无人机巡检由于其成本低、效率高、细节精等特点,得到越来越多的应用。但是,无人机巡检所获得的大量输电设备航拍图像数据,由于缺少针对输电设备航拍图像的公共数据集,导致计算机不能直接读取和标注图片信息,从而缺乏标注数据对模型进行监督训练,很难高质量完成输电设备外观缺陷检测任务。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种视觉问答方法、系统及服务器,用于解决现有技术中缺少针对输电设备航拍图像的公共数据集,很难高质量完成电输电设备外观缺陷检测任务的问题。本专利技术的第一方面提供一种视觉问答方法,包括:获取输电设备的图像数据,所述图像数据包括视频数据和图片数据;预处理所述图像数据,得到原始数据集;对所述原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;将所述视觉问答数据集输入视觉问答模型进行训练,得到训练后的视觉问答模型;输入问题文本和图片到所述训练后的视觉问答模型,得到视觉问答结果。于本专利技术的一实施例中,所述预处理所述图像数据,得到原始数据集的步骤包括:提取所述视频数据的视频关键帧,将所述视频关键帧和所述图片数据合并,得到原始数据集。于本专利技术的一实施例中,所述提取所述视频数据的视频关键帧的步骤包括:遍历所述视频数据的每一镜头,以及每一镜头的每一帧,得到每一帧的RGB平均值,并保存在一个向量中;统计所述向量的最大值、最小值和均值,将与所述均值最接近的RGB平均值所对应的帧选为关键帧。于本专利技术的一实施例中,所述对所述原始数据集进行视觉问答标注和语义分割标注的步骤包括:对所述原始数据集的每一张图片提出多个问题并标注正确答案;其中,各所述问题分别与各图片的局部或整体相关联;在各图片上选出与各正确答案相对应的区域,并在区域边沿绘制边界框,建立各图片的文本问答与语义分割之间的图文链接;其中,所述区域根据所述图片数据的对象分为多类,每个类别用不同颜色和索引值表示。于本专利技术的一实施例中,所述将所述视觉问答数据集输入视觉问答模型进行训练,得到训练后的视觉问答模型的步骤包括:步骤一、给定所述视觉问答数据集中的一个问答对,问题嵌入向量wq和答案嵌入向量wa,将两者拼接成为文本特征向量w;步骤二、在视觉问答数据集中,提取与所述问答对相对应的一张图片,提取该图片每个区域的视觉语义(v′,z),其中,v′为区域特征,z为区域位置;将区域特征v′和区域位置z拼接成位置敏感区域特征向量,通过线性投影将其转化为视觉特征向量v;其中,所述视觉特征向量与所述单词嵌入向量的维数相同;步骤三、在视觉问答数据集中,提取上述图片对应的图文链接,重复步骤二,提取图文链接特征,得到图文链接向量l;步骤四、将单词嵌入向量w,图文链接向量l,视觉特征向量v组成三元组(w,l,v)作为整体输入到多层感知器模型中,完成一张图片的训练;步骤五、重复步骤一到步骤四,直至完成所述视觉问答数据集中所有图片的训练。于本专利技术的一实施例中,还包括,在视觉问答标注前对所述原始数据集进行数据清洗,所述数据清洗的步骤包括:判断所述原始数据集中的图片是否因雾气导致模糊,若是,对其进行暗通道去雾并提高图片清晰度,得到处理后的图片;对所述处理后的图片进行人工检验,剔除不合格图片;其中,所述不合格图片包括模糊、重复度高、光照大或阴影大的图片。于本专利技术的一实施例中,还包括:得到视觉问答数据集后,对所述视觉问答数据集进行水平翻转和像素值加噪声两种方式的数据扩增。于本专利技术的一实施例中,还包括:对所述数据扩增后的视觉问答数据集进行再次数据清洗,所述再次数据清洗的步骤包括:剔除数据扩增中产生的异常数据,并剔除标注错误或不准确的图片。本专利技术的第二方面还提供一种视觉问答系统,包括:数据获取模块,用于获取输电设备的图像数据,所述图像数据包括视频数据和图片数据;数据处理模块,用于对所述原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;数据训练模块,用于对所述视觉问答数据集进行训练,得到训练后的视觉问答模型。。本专利技术的第三方面还提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术第一方面的一种视觉问答方法中任意一项所述的方法。如上所述,本专利技术的一种视觉问答方法、系统及服务器,具有以下有益效果:本专利技术对获取的输电设备的图像数据进行视觉问答标注和语义分割标注,得到视觉问答数据集,从而建立了图像数据的语义分割与文本问答之间的图文链接;根据该视觉问答数据集训练得到的视觉问答模型,以图文链接作为锚点,将输入的图片与文本在语义上对齐,提高了视觉问答模型的性能,获得了更加准确的视觉问答结果。附图说明图1显示为本专利技术的实施例中公开的视觉问答方法工作流程示意图。图2显示为本专利技术的实施例中公开的预处理图像数据的工作流程示意图。图3显示为本专利技术的实施例中公开的建立视觉问答数据集的工作流程示意图。图4显示为本专利技术的实施例中公开的提出问题的类别列表。图5显示为本专利技术的实施例中公开的图片数据对象的类别列表。图6显示为本专利技术的实施例中公开的训练视觉问答模型的示意图。图7显示为本专利技术的实施例中公开的视觉问答方法工作流程框图。图8显示为本专利技术的实施例中公开的视觉问答系统的结构框图。图9显示为本专利技术的实施例中公开的服务器的示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。请参阅图1,本专利技术的实施例提供一种视觉问答方法,用于检测输电设备的外观缺陷,具体如下:步骤101,获取输电设备的图像数据,其中,图像数据包括视频数据和图片数据。具体的说,本实施方式中的视频数据是使用搭载RTK模块的无人机DJI飞行平台获得,图片数据是使用定点摄像机采集的单类别输电设备静态图片数据。需要说明的是,输电设备的图像数据应包含天空、山地、草地等多种自然环境下的不同角本文档来自技高网...

【技术保护点】
1.一种视觉问答方法,其特征在于,包括:/n获取输电设备的图像数据,所述图像数据包括视频数据和图片数据;/n预处理所述图像数据,得到原始数据集;/n对所述原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;/n对所述视觉问答数据集进行训练,得到视觉问答模型;/n输入问题文本和图片到所述视觉问答模型,得到视觉问答结果。/n

【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:
获取输电设备的图像数据,所述图像数据包括视频数据和图片数据;
预处理所述图像数据,得到原始数据集;
对所述原始数据集依次进行视觉问答标注和语义分割标注,得到视觉问答数据集;
对所述视觉问答数据集进行训练,得到视觉问答模型;
输入问题文本和图片到所述视觉问答模型,得到视觉问答结果。


2.根据权利要求1所述的视觉问答方法,其特征在于:所述预处理所述图像数据,得到原始数据集的步骤包括:
提取所述视频数据的视频关键帧,将所述视频关键帧和所述图片数据合并,得到原始数据集。


3.根据权利要求2所述的视觉问答方法,其特征在于:所述提取所述视频数据的视频关键帧的步骤包括:
遍历所述视频数据的每一镜头,以及每一镜头的每一帧,得到每一帧的RGB平均值,并保存在一个向量中;
统计所述向量的最大值、最小值和均值,将与所述均值最接近的RGB平均值所对应的帧选为关键帧。


4.根据权利要求1所述的视觉问答方法,其特征在于:所述对所述原始数据集进行视觉问答标注和语义分割标注的步骤包括:
对所述原始数据集的每一张图片提出多个问题并标注正确答案;其中,各所述问题分别与各图片的局部或整体相关联;
在各图片上选出与各正确答案相对应的区域,并在区域边沿绘制边界框,建立各图片的文本问答与语义分割之间的图文链接;其中,所述区域根据所述图片数据的对象分为多类,每个类别用不同颜色和索引值表示。


5.根据权利要求4所述的视觉问答方法,其特征在于,所述将所述视觉问答数据集输入视觉问答模型进行训练,得到训练后的视觉问答模型的步骤包括:
步骤一、给定所述视觉问答数据集中的一个问答对,获得问题嵌入向量wq和答案嵌入向量ωα,将两者拼接成为文本特征向量ω;
步骤二、在视觉问答数据集中,提取与所述问答对相对应的一张图片,提取该图片每个区域的视觉语义(υ’,z),其中,υ′为区域特征,z为区域位置;将区域特征...

【专利技术属性】
技术研发人员:卫星沈奥韩知渊翟琰李航葛久松陆阳赵冲
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1