一种视觉问答方法、系统及服务器技术方案

技术编号：29528526 阅读：58 留言：0更新日期：2021-08-03 15:15

本发明专利技术提供一种视觉问答方法、系统及服务器，包括：获取输电设备的图像数据，图像数据包括视频数据和图片数据；预处理图像数据，得到原始数据集；对原始数据集依次进行视觉问答标注和语义分割标注，得到视觉问答数据集；对视觉问答数据集进行训练，得到视觉问答模型；输入问题文本和图片到视觉问答模型，得到视觉问答结果。本发明专利技术对图像数据进行视觉问答标注和语义分割标注，得到视觉问答数据集，从而建立了图像数据的语义分割与文本问答之间的图文链接；根据该视觉问答数据集训练得到的视觉问答模型，以图文链接作为锚点，将输入的图片与文本在语义上对齐，提高了视觉问答模型的性能，获得了更加准确的视觉问答结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种视觉问答方法、系统及服务器
本专利技术涉及一种视觉问答
，特别是涉及一种视觉问答方法、系统及服务器。
技术介绍
目前电力系统的输电设备巡检方式大致可以分为人工巡检和无人机巡检两种。其中无人机巡检由于其成本低、效率高、细节精等特点，得到越来越多的应用。但是，无人机巡检所获得的大量输电设备航拍图像数据，由于缺少针对输电设备航拍图像的公共数据集，导致计算机不能直接读取和标注图片信息，从而缺乏标注数据对模型进行监督训练，很难高质量完成输电设备外观缺陷检测任务。
技术实现思路
鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种视觉问答方法、系统及服务器，用于解决现有技术中缺少针对输电设备航拍图像的公共数据集，很难高质量完成电输电设备外观缺陷检测任务的问题。本专利技术的第一方面提供一种视觉问答方法，包括：获取输电设备的图像数据，所述图像数据包括视频数据和图片数据；预处理所述图像数据，得到原始数据集；对所述原始数据集依次进行视觉问答标注和语义分割标注，得到视觉问答数据集；将所述视觉问答数据集输入视觉问答模型进行训练，得到训练后的视觉问答模型；输入问题文本和图片到所述训练后的视觉问答模型，得到视觉问答结果。于本专利技术的一实施例中，所述预处理所述图像数据，得到原始数据集的步骤包括：提取所述视频数据的视频关键帧，将所述视频关键帧和所述图片数据合并，得到原始数据集。于本专利技术的一实施例中，所述提取所述视频数据的视频关键帧的步骤包...

【技术保护点】
1.一种视觉问答方法，其特征在于，包括：/n获取输电设备的图像数据，所述图像数据包括视频数据和图片数据；/n预处理所述图像数据，得到原始数据集；/n对所述原始数据集依次进行视觉问答标注和语义分割标注，得到视觉问答数据集；/n对所述视觉问答数据集进行训练，得到视觉问答模型；/n输入问题文本和图片到所述视觉问答模型，得到视觉问答结果。/n

【技术特征摘要】
1.一种视觉问答方法，其特征在于，包括：
获取输电设备的图像数据，所述图像数据包括视频数据和图片数据；
预处理所述图像数据，得到原始数据集；
对所述原始数据集依次进行视觉问答标注和语义分割标注，得到视觉问答数据集；
对所述视觉问答数据集进行训练，得到视觉问答模型；
输入问题文本和图片到所述视觉问答模型，得到视觉问答结果。

2.根据权利要求1所述的视觉问答方法，其特征在于：所述预处理所述图像数据，得到原始数据集的步骤包括：
提取所述视频数据的视频关键帧，将所述视频关键帧和所述图片数据合并，得到原始数据集。

3.根据权利要求2所述的视觉问答方法，其特征在于：所述提取所述视频数据的视频关键帧的步骤包括：
遍历所述视频数据的每一镜头，以及每一镜头的每一帧，得到每一帧的RGB平均值，并保存在一个向量中；
统计所述向量的最大值、最小值和均值，将与所述均值最接近的RGB平均值所对应的帧选为关键帧。

4.根据权利要求1所述的视觉问答方法，其特征在于：所述对所述原始数据集进行视觉问答标注和语义分割标注的步骤包括：
对所述原始数据集的每一张图片提出多个问题并标注正确答案；其中，各所述问题分别与各图片的局部或整体相关联；
在各图片上选出与各正确答案相对应的区域，并在区域边沿绘制边界框，建立各图片的文本问答与语义分割之间的图文链接；其中，所述区域根据所述图片数据的对象分为多类，每个类别用不同颜色和索引值表示。

5.根据权利要求4所述的视觉问答方法，其特征在于，所述将所述视觉问答数据集输入视觉问答模型进行训练，得到训练后的视觉问答模型的步骤包括：
步骤一、给定所述视觉问答数据集中的一个问答对，获得问题嵌入向量wq和答案嵌入向量ωα，将两者拼接成为文本特征向量ω；
步骤二、在视觉问答数据集中，提取与所述问答对相对应的一张图片，提取该图片每个区域的视觉语义(υ’，z)，其中，υ′为区域特征，z为区域位置；将区域特征...

【专利技术属性】
技术研发人员：卫星，沈奥，韩知渊，翟琰，李航，葛久松，陆阳，赵冲，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人