当前位置: 首页 > 专利查询>山东大学专利>正文

基于可解释视觉推理模型的危险预警描述自动生成方法技术

技术编号:24614104 阅读:26 留言:0更新日期:2020-06-24 01:27
一种基于可解释视觉推理模型的危险预警描述自动生成方法,包括建立特定场景的先验知识库和训练数据库,通过迁移学习微调模型以得到针对该场景下的平面目标检测器和三维目标检测器;然后针对某一帧视频信息,通过平面目标检测器检测出所有目标类型和目标的平面位置特征,再并行地通过三维目标检测器得到所有目标的三维空间特征,并根据检测出的目标类型、结合先验知识库构造该帧视频下的关系任务图,将其通过图神经网络抽取特征后,融合上述的平面空间特征和三维空间特征,送入模块化的多层感知机中进行推理学习,最终得到该帧视频图像下存在的危险等级和具有危险关系的对象,最后结合先验知识库中的语义转换生成该帧视频图像所对应的中文描述。

Automatic generation of hazard warning description based on interpretable visual reasoning model

【技术实现步骤摘要】
基于可解释视觉推理模型的危险预警描述自动生成方法
本专利技术公开一种基于可解释视觉推理模型的危险预警描述自动生成方法,属于智能电力的

技术介绍
随着经济的发展和科技的进步,我国正在逐步发展成为一个现代化、信息化的社会。在工业领域,视频摄像头也被广泛应用于各种生产实践,以完成相关安全监控,危险预测等任务;然而,在工业领域大规模铺设视频摄像头的背景下,并没有一套成熟、经济、准确、高效的方法去利用这些庞大的视频数据去进行危险预测和安全监控的任务。目前主流的危险预测方法主要采用人工盯防或传统的图像描述生成的方式,前者将所有摄像头的实时监控数据传送到安全保障室,由安全员负责监督并给出预警;该模式不仅耗费大量人力,而且受制于人的注意力、精力、观察范围等因素,既容易忽视存在的危险,又无法实现对潜在风险的及时预警。而传统的图像描述生成(imagecaption)方法基于简单的图像目标检测技术来实现,这只能给出图中存在的目标信息,无法根据其对应的空间位置关系给出预警,从而导致对危险预测的正确率不尽如人意;例如,在输变电场景中,吊车位于高压电线下是存在安全隐患的,而吊车远离高压电线则认为是安全的,而现有的视频目标检测预警技术只能告诉安全员该场景中存在吊车和高压电线,却很难通过他们的关系给出危险与否的判断。近年来,在人工智能和深度学习领域,关于机器是否能够“思考”的问题,学术界一直存在争议;2016年,随着AlphaGo在围棋领域战胜了人类的顶尖高手,许多学者相信,机器也能具备逻辑和推理能力,从而开启了对视觉推理研究的热潮。所谓视觉推理问题,相较之前其他与视觉相关的任务,最大的区别在于输入和输出之间不具备直接的联系,必须通过推理才能回答;即给定一个任务,需要机器学会将其划分为若干个子任务,并依次调用这些子任务模块进行处理,最终得到相应的输出。中国专利文献CN110110043A公开了一种多跳视觉问题推理模型及其推理方法,所述模型包括:多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;卷积神经网络,用于提取输入图像的图像特征;长短期记忆网络,用于提取问题特征;知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。但该专利文献对输入图像视觉特征的提取,及知识图的应用手段较为简单;对于前者,该专利文献只是简单的用卷积神经网络进行提取,没有充分考虑图中物体与物体之间的平面空间位置关系和三维空间位置关系;对于后者,该专利文献只是将知识图用于最后的检索任务回答问题,并没有将知识图作为输入,即未对知识图中的实体及关系进行符号化表示,也未做进一步的传播处理和特征提取;基于这两点,在将该专利提出的模型运用于本专利技术的视觉预警描述任务上时,既无法准确描述存在危险关系的配对,又无法指明产生该危险的具体原因,因此较难获得满意的成果。中国专利文献CN110414684A公开了一种基于知识感知的模块化视觉推理方法及装置,其中,该方法包括:获取图片,并获取图片对应的提问文本;对提问文本进行动态解析生成多个神经网络模块;将多个神经网络模块变换为树状结构神经网络模块,并对树状结构神经网络模块进行实例化处理生成知识感知神经网络模型;对图片进行视觉特征处理得到图片特征,将图片特征输入知识感知神经网络模型,并输出提问文本对应的答案。该方法针对特定的问题来进行动态组装,形成自下而上的树状模块化结构,可用于在真实图片上进行动态的视觉推理。但该专利文献没有涉及先验的知识库,因此在进行危险预警推理任务时,既无法指明具有危险关系的物体组合,又无法根据应用场景、动作的变换,进行不同的推理;同时,在对图片进行视觉特征处理时,该模型也较为简单,并未充分考虑图中物体之间的相互平面位置关系和三维位置关系。因此该专利文献提出的模型既无法准确描述存在危险关系的配对,又无法指明产生该危险的具体原因,难以迁移运用于本专利的视觉预警描述任务。因此,现有技术缺乏对复杂电力场景进行视觉推理并给出危险预警的中文描述的技术方案。
技术实现思路
针对现有技术的不足,本专利技术公开一种基于可解释视觉推理模型的危险预警描述自动生成方法。专利技术概述:首先建立针对特定场景的先验知识库和训练数据库,并通过迁移学习微调模型以得到针对该场景下的平面目标检测器和三维目标检测器;然后针对某一帧视频信息,通过平面目标检测器检测出所有目标类型和目标的平面位置特征,再并行地通过三维目标检测器得到所有目标的三维空间特征,并根据检测出的目标类型、结合先验知识库构造该帧视频下的关系任务图,将其通过图神经网络抽取特征后,融合上述的平面空间特征和三维空间特征,送入模块化的多层感知机中进行推理学习,最终得到该帧视频图像下存在的危险等级和具有危险关系的对象,最后结合先验知识库中的语义转换生成该帧视频图像所对应的中文描述。技术术语解释:SSD300:单点多盒探测器(SingleShotMultiBoxDetector),是一种目标检测算法,能够得到输入图像的所有目标类型和平面位置,其中平面位置用限界框(BoundingBox)表示;SSD-6D:基于SSD的基本思想和处理流程,增加预测目标被观测视角和平面旋转的得分,从而构建目标的三维模型,并给出目标的六自由度位姿;GraphSage:一种图神经网络算法,采用的是归纳式学习而非直接学习,通过聚合周围邻居节点学习自身节点特征;MLP:多层感知机,即多层全连接神经网络。综上,本专利技术要解决的技术问题如下:(1)大部分用于预警的视频目标检测方法只能检测图像中目标的平面位置关系,而当摄像头视角变换时,同一场景的物体往往会给出不同位置的错误判断。本专利技术改进了现有的平面目标检测模型,使之能够根据视频图像推断摄像头的视角和目标的平面旋转,从而描述目标的三维区位特征。(2)现有的基于视觉的危险预警系统往往只根据图中目标的有/无状态进行预警,而不考虑目标之间的空间关系所隐含的危险。本专利技术在此基础上,既引入了先验知识图构造目标间的语义关系,同时考虑了目标在图上的空间关系,从而能够使机器结合目标的语义关系和空间关系,进行对视频场景的危险推理和预警描述。本专利技术详细的技术方案如下:一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,包括以下步骤:S1:建立先验知识库:包括但不限于,定义目标种类,定义关系种类,定义对应语义等;S2:建立数据集:包括建立平面目标检测数据集、三维目标检测数据集和危险推理模型数据集;S3:训练平面目标检测器;S4:训练三维目标检测器;S5:使用平面目标检测器检测视频帧中所有目标类型,并结合三维目标检测器提取物体的平面空间关系特征和三维空间关系特征;S6:结合步骤S1中的先验知识库和步骤S5中检测出的目标类型构建该视频帧的目标本文档来自技高网
...

【技术保护点】
1.一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,包括以下步骤:/nS1:建立先验知识库;/nS2:建立数据集:包括建立平面目标检测数据集、三维目标检测数据集和危险推理模型数据集;/nS3:训练平面目标检测器;/nS4:训练三维目标检测器;/nS5:使用平面目标检测器检测视频帧中所有目标类型,并结合三维目标检测器提取物体的平面空间关系特征和三维空间关系特征;/nS6:结合步骤S1中的先验知识库和步骤S5中检测出的目标类型构建该视频帧的目标语义关系图,并通过图卷积网络提取视频帧中目标物体的语义关系特征;/nS7:融合步骤S5和步骤S6中得到的空间关系特征和语义特征,并通过模块化的推理模型进行训练;/nS8:将步骤S7中推理结果,结合步骤S1中先验知识库,给出该视频帧中的危险等级和/或预警描述。/n

【技术特征摘要】
1.一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,包括以下步骤:
S1:建立先验知识库;
S2:建立数据集:包括建立平面目标检测数据集、三维目标检测数据集和危险推理模型数据集;
S3:训练平面目标检测器;
S4:训练三维目标检测器;
S5:使用平面目标检测器检测视频帧中所有目标类型,并结合三维目标检测器提取物体的平面空间关系特征和三维空间关系特征;
S6:结合步骤S1中的先验知识库和步骤S5中检测出的目标类型构建该视频帧的目标语义关系图,并通过图卷积网络提取视频帧中目标物体的语义关系特征;
S7:融合步骤S5和步骤S6中得到的空间关系特征和语义特征,并通过模块化的推理模型进行训练;
S8:将步骤S7中推理结果,结合步骤S1中先验知识库,给出该视频帧中的危险等级和/或预警描述。


2.根据权利要求1所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,所述步骤S1中建立先验知识库具体包括:
S11:定义该场景下所可能包含的所有目标类别:设定义的目标总数为P;并定义第i类目标的语义为Oobject(i);
S12:定义目标彼此之间的空间位置关系类别:设定义的空间关系总数为N;并定义第i类关系的语义为Oaction(i);
S13:对步骤S12中定义的每种空间位置关系,根据实际场景,标注出所有可能存在危险的目标配对;
S14:将步骤S11中的所有目标用one-hot向量表示,得到一个P维的目标向量;再根据步骤S13中每种关系的危险配对,构建在空间关系r下大小为P*P的图邻接矩阵Ar,其中代表目标i与目标j是危险配对,代表目标i与目标j的配对不会产生危险;
S15:整合步骤S11中定义的目标向量、步骤S12中定义的空间位置关系、步骤S13和步骤S14中定义的危险配对矩阵,最终得到大小为N*P*P的一组先验知识图谱作为先验知识库。


3.根据权利要求1所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,所述步骤S2具体包括:
S21:对视频数据取帧并保存为图片并做预处理;
S22:对步骤S21中经预处理后的图片,进行人工标注;优选的,仿照Microsoft公司所开源的数据集MSCOCO,对步骤S21中经预处理后的图片,进行人工标注;优选的,并仿照MSCOCO的格式进行保存,保存所有在步骤S1中定义的目标的矩形框坐标信息;
S23:丰富数据集;
至此,经步骤S21,S22,S23建立的数据集,将用于步骤S3中的平面目标检测模型的迁移学习;
S24:继续针对图中的危险等级D,以及存在危险的空间关系类别r′,和存在危险的目标配对进行标注;并定义第i个危险等级的语义为Odanger(i);上述标注将使用三维数组保存,其中ψ(r,i,j)=D(D>0)代表关系r下目标i和目标j之间存在危险;
至此,经步骤S21,S22,S23,S24建立的数据集,将用于步骤S7中的危险推理模型的训练;
S25:复制步骤S23中的图像集,使用OpenGL命令对图中目标进行随机转换,并计算边界框与目标掩膜的IoU值,将IoU值大于0.5的作为正样本,其余的作为负样本,并确定每种变换所最可能使用的采样视点和平面旋转;
至此,经步骤S21,S22,S23,S25步建立的数据集,将用于步骤S4中的三维目标检测模型的迁移学习。


4.根据权利要求3所述的一种基于可解释视觉推理模型的危险预警描述自动生成方法,其特征在于,所述步骤S3训练平面目标检测器的方法包括:
S31:使用在数据集MSCOCO上预训练好的SSD300模型作为平面目标检测器的原始模型;
S32:使用步骤S23中建立的数据集对预训练的SSD300模型进行迁移学习,通过对其参数的微调;
S33:训练完成后,固定SSD300的模型参数,使之作为后续检测目标和提取图像平面特征的处理模型。


5.根据权利要求4所述的一种基于可解释...

【专利技术属性】
技术研发人员:聂礼强战新刚何建明赵振兵甘甜董兴宁
申请(专利权)人:山东大学智洋创新科技股份有限公司浙江辉博电力设备制造有限公司华北电力大学保定
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1