当前位置: 首页 > 专利查询>浙江大学专利>正文

面向AI实训的多模态数据集标注方法、装置及电子设备制造方法及图纸

技术编号:34054350 阅读:39 留言:0更新日期:2022-07-06 16:36
本发明专利技术公开了一种面向AI实训的多模态数据集标注方法、装置及电子设备,属于计算机视觉领域。本发明专利技术通过基于深度学习技术和图对齐融合的场景图生成算法,利用图像描述的弱监督信息产生第一类场景图,进一步与基于图像生成的第二类场景图进行对齐和融合,最终产生候选的初始场景图作为人工标注的参考,避免了错误标注和漏标注。本发明专利技术可为多模态数据集的人工标注提供智能标注提示,使得人工标注时仅需优化侯选的场景图即可,大大降低了标注规模和标注难度,可有效提高多模态数据的标注效率。可有效提高多模态数据的标注效率。可有效提高多模态数据的标注效率。

Annotation method, device and electronic equipment of multimodal data set for AI training

【技术实现步骤摘要】
面向AI实训的多模态数据集标注方法、装置及电子设备


[0001]本专利技术属于计算机视觉领域,具体涉及一种面向AI实训的多模态数据集标注方法、装置及电子设备。

技术介绍

[0002]AI实训广泛应用于在线教育领域,如人工智能课程、特定任务培训等。AI实训需要根据用户的需要提供相应的教程、数据,但随着AI技术的不断发展和任务复杂度的不断提升,对多模态数据的质量和数量的要求变得越来越高。AI实训所需模型依赖高质量的标注数据进行训练,而传统的多模态数据集构建方法需要依赖于人工进行标注工作,其标注效率和质量均存在缺陷。
[0003]另外,在现有技术中,申请号为CN202010131160.5的专利技术专利提供了一种多模态数据标注方法、系统及相关装置,该方案的做法是:将图像分割数据集的标注过程分为检测和分割两个过程,首先使用检测模型对ImageNet图像数据进行检测定位,然后使用图像分割方法,进行小范围mask标记,以得到标注数据信息,从而完成数据集的批量自动标注。但是,该方案依赖于图像检测模型和图像分割算法的性能,无法保证标注数据的完备性和可靠本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向AI实训的多模态数据集标注方法,其特征在于,包括:S1、获取待标注样本,所述待标注样本包括原始图像和对应的图像描述;S2、针对所述原始图像,通过目标检测得到多个带有类别和边框信息的目标,将得到的所有目标配对采样形成由目标对组成的目标对集合,所述目标对包括一个作为主语的目标和一个作为宾语的目标;抽取每个目标对中两个目标自身以及周围的语义信息形成目标对的上下文特征,将每个目标对中两个目标各自的视觉特征和类别标签以及目标对的上下文特征作为经过训练的深度自注意力网络的输入,预测目标对中两个目标的关系,得到由存在于所述原始图像中的关系三元组组成的第一关系三元组集合,将第一关系三元组集合中的关系三元组转换为图结构,从而得到基于图像的场景图;S3、针对所述图像描述,通过实体提取规则从图像描述文本中识别得到第一实体集合,然后利用词典对第一实体集合中的实体进行筛选,保留的实体形成第二实体集合;利用关系抽取规则从图像描述文本中识别得到所述第二实体集合中实体之间存在的关系,得到由存在于所述图像描述中的关系三元组组成的第二关系三元组集合;根据实体之间的关系过滤规则,对第二关系三元组集合中的关系三元组进行过滤,保留的关系三元组形成第三关系三元组集合;将第三关系三元组集合中的关系三元组转换为图结构,从而得到基于图像描述的场景图;S4、将基于图像的场景图和基于图像描述的场景图通过图层次的对齐和融合得到融合场景图;S5、将所述融合场景图作为初始标注信息发送至人工校对端,并根据人工校对端返回的校对结果生成最终标注结果,并与所述待标注样本关联后加入多模态数据集中。2.如权利要求1所述的面向AI实训的多模态数据集标注方法,其特征在于,所述目标检测的方法为:将原始图像输入区域推荐网络,得到图像中目标的候选框和图像特征图,通过非极大值抑制对候选框进行筛选,根据保留的候选框从所述图像特征图中提取每个候选框对应区域的池化特征并作为对应候选框的特征向量;把每个候选框的特征向量分别输入分类网络和位置回归网络,得到每个候选框的类别和位置,从而得到多个带有类别和边框信息的目标。3.如权利要求1所述的面向AI实训的多模态数据集标注方法,其特征在于,所述深度自注意力网络由多个叠加的块和分类网络组成;其中每个块由多头注意力模块、多层感知机模块、层标准化模块级联而成,块的输入和多层感知机的输出进行残差连接后再输入到层标准化模块,层标准化模块的输出即为整个块的输出;上一个块的输出作为下一个块的输入,且第一个块的输入中带有一个可学习位置编码,最后一个块的输出作为分类网络的输入;所述分类网络仅包含一个多层感知机模块,使用softmax函数将多层感知机的结果转化为各个关系类别的概率分布,然后取概率最大的类别作为目标对中两个目标之间关系的预测结果。4.如权利要求1所述的面向AI实训的多模态数据集标注方法,其特征在于,所述深度自注意力网络预先通过半监督学习进行训练,训练时数据集包含原始图像数据集和增强图像数据集,所述原始图像数据集由已标注的原始图像组成,所述增强图像数据集由所有原始图像各自进行数据增强后的未标注的增强图像组成;训练时的总损失函数为深度自注意力网络在原始图像数据集上的交叉熵损失和在增强图像数据集上的KL散度损失的加权和。
5.如权利要求1所述的面向AI实训的多模态数据集标注方法,其特征在于,得到所述第二关系三元组集...

【专利技术属性】
技术研发人员:吴超陈桂锟肖俊王朝张志猛
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1