多模态特征嵌入预训练网络搭配效果评估的上界替代法制造技术

技术编号:29402633 阅读:19 留言:0更新日期:2021-07-23 22:40
本发明专利技术提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法,属于计算机视觉多模态技术领域。本发明专利技术提出的方法包括步骤:1)将所有模态特征嵌入预训练网络所提取到的特征进行遍历搭配;2)对得到的所有的搭配情况,对任务网络按照正式训练时提前设定好的参数,利用测试集部分进行训练;3)、对得到的每种搭配对应的模型,对其在测试集上进行测试,记录每一种搭配所对应的测试结果;4)、对所对应的每一种测试结果,选择效果最好的结果对应的模态特征嵌入预训练网络搭配;5)、对选出的网络搭配,将任务模型在这种搭配下所对应的训练集的特征下进行训练,训练得到的模型就是最优的模型。

【技术实现步骤摘要】
多模态特征嵌入预训练网络搭配效果评估的上界替代法
本专利技术属于计算机视觉
,具体来说,涉及多模态特征嵌入预训练网络搭配选取办法。
技术介绍
多模态任务指涉及多个模态数据输入的计算机视觉任务(比如视频、音频、文字),该任务的输入绝大多数情况是用特征嵌入预训练网络提取到的各个模态特征而非源数据本身。多模态任务涉及到的难点在于不同模态数据信息的融合。前人将多模态任务融合难这个问题归结于不同模态数据本身的各种差异性(载体不同、表达方式不同),但是毫无疑问的是,用来提取特征的预训练网络本身也会对多模态融合造成很大的影响。因此特征嵌入预训练网络怎么选,不同模态的预训练网络怎么搭配,是很有研究价值的问题。本专利技术适用的领域尚未由严格上的同类技术,比较常用的方法是遍历法。具体上来说,即在训练集上进行训练,然后在测试集上进行测试,记录结果。以上步骤遍历所有预训练特征模型,比较不同预训练模型搭配在测试集上得到的结果,选择其中最优的结果。这样的方法最大的问题是耗时间,由于这种方法需要对每一种模型搭配都进行训练+测试这么一个过程,且没有将得到结果和选取预训练模型搭配这两件事解耦,因此只有得到最终实验结果来进行比较后才能判明哪一种搭配是最好的。在训练集越来越大,涉及的数据模态越来越多的今天愈发的不合适。
技术实现思路
针对于选取最优多模态特征嵌入预训练网络搭配耗时长的问题,提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法。能够有效地缩短选取最优多模态特征嵌入预训练网络搭配所消耗的时间。该方法耗时短,适用于训练所需时间越来越长的多模态问题现状。本专利技术提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法,其特征在于,包括以下步骤:步骤1、将所有多模态特征嵌入预训练网络所提取到的特征进行遍历搭配。步骤2、针对于步骤1中得到的所有的搭配情况,对任务网络按照正式训练时提前设定好的参数,利用测试集部分进行训练。本步中提及到的训练即对应具体任务的训练。步骤3、针对于步骤2中得到的每种搭配对应的任务模型,对其在测试集上进行测试,记录每一种搭配所对应的测试结果。具体来说,对已经用对应预训练模型提取的特征训练好的任务模型,在该种预训练模型提取特征的测试集上进行具体任务的推理过程,利用该具体任务的评价指标进行评价,得到该具体任务下的评估效果。步骤4、针对于步骤3中所对应的每一种测试结果,选择效果最好的结果对应的多模态特征嵌入预训练网络搭配。本步骤中得到的任务效果效果并不能直接真实表示该模型在具体任务种的实际效果,但是不同本步骤中得到的各种预训练模型搭配下的比较关系是和实际相同的。因此可以用来比较、选取最优多模态特征嵌入预训练网络搭配。步骤5、对于步骤4中选出的网络搭配,将任务模型在这种搭配下所对应的训练集的特征下进行训练,训练得到的模型就是最优的模型。本专利技术提出了多模态特征嵌入预训练网络搭配效果评估的上界替代法,其特征在于,步骤1中包括以下步骤:步骤1.1、固定住各个模态的预训练网络的网络参数,仅保留最后一个全连接层的网络参数可训练。步骤1.2、将这些预训练网络用对应具体任务的数据集进行训练,微调其全连接层的网络参数,使其更加符合任务场景。本步中提到的训练一般是指在对应数据集上的分类训练。步骤1.3、用训练好的预训练网络模型对任务数据集进行特征提取,提取到对应的特征。上述的多模态特征嵌入预训练网络搭配效果评估的上界替代法,其特征在于,将传统遍历法中“比较在训练集上训练的模型在测试集上的表现效果”这个耗时的过程转化为比较这个过程中“表现效果”的上界,即“比较在测试集上训练的模型在测试集上的表现效果”,将传统遍历法中“选择最优多模态特征嵌入预训练网络搭配”和“得到对应搭配任务网络的训练效果”这两件捆绑在一起的事情解耦。本方法中所涉及到的测试集指正式训练过程中用来测试模型性能的数据集,并不涉及不可见部分。本方法的特点:由于将传统遍历法中“选择最优多模态特征嵌入预训练网络搭配”和“得到对应搭配任务网络的训练效果”这两件捆绑在一起的事情解耦,因此使用本方法仅用对任务模型在训练集上进行一次训练,同时由于训练集数据量远大于测试集,因此本方法对所有预训练模型搭配情况下,对任务模型用测试集训练这个操作相比于遍历法中对所有情况,用训练集对任务模型进行训练这个操作更加省时。附图说明图1是传统遍历法对最优多模态特征嵌入预训练网络搭配进行选取的流程图图2是我们所提出的上界替代法对最优多模态特征嵌入预训练网络搭配进行选取的流程图。图3是不同网络搭配在上述两种方法下的效果比较图。横轴是选取的8种不同多模态特征嵌入预训练网络搭配,纵轴是在视听视频解析任务中两种方法的对不同搭配的评价效果,可见两种方法具有相同的趋势。图4是具体应用中对应视听视频解析任务的任务网络结构图。具体实施方式下面将结合附图对本专利技术的具体实施进行具体描述:多模态特征嵌入预训练网络搭配效果评估的上界替代法在视音视频解析任务中的据以应用,如图2、图3、图4所示,包括以下步骤:步骤S1、在视频各模态特征提取阶段利用所提出的预训练特征网络选取优化算法对特征网络的组合进行选取。步骤S2、用步骤1所选取的特征网络对特征进行提取作为后续步骤的输入以上步骤涉及到我们所提出的方法的具体任务中的应用,以下步骤都是具体任务的步骤,不涉及我们所提到的方法。步骤S3、用步骤2所得到的预训练网络特征,输入层级线性层中,线性层的输出维度为512,输入维度示对应特征提取网络输出维度为定,进行维度调整,步骤3的输出为最后一个维度大小为512的各模态特征步骤S4、对于步骤3中所得到的特征,使用多模态对比学习损失进行优化步骤S5、在进行步骤4的同时将步骤3中所得到的特征输入混合注意力网络,输出与输入形状、个数相同步骤S6、对于步骤5的输出结果输入一个基于注意力机制的池化模块,输出为各模态以及跨模态的预测结果进一步,所述步骤S1的特征网络选取办法的具体方法包括以下步骤:步骤S1.1、用各模态所有的预训练特征提取网络对测试集进行特征提取,步骤S1.2、提取到的特征按照模态进行遍历组合,对于每一种组合对后续网络进行同等条件下的训练。步骤S1.3、选择训练后在测试集上效果最好的组合。进一步,所述步骤S4的多模态时序对比损失选取办法的具体方法包括以下步骤:步骤S1.4、将各模态特征按照时序分开步骤S1.5、对于同时序的不同模态特征增大其相似度,对不同时序的不同模态特征减小其相似度进一步,所述步骤S5的混合注意力网络选取办法的具体方法包括以下步骤:步骤S5.1、对图像和音频两个模态的特征信息用多头注意力层求得模态内和模态间的注意力特征步骤S5.2、将步骤S5.1中得到的模态内和模态间的特征分别和对应模态的特征相加并通过一个正本文档来自技高网...

【技术保护点】
1.多模态特征嵌入预训练网络搭配效果评估的上界替代法,其特征在于,包括以下步骤:/n步骤1、将所有模态特征嵌入预训练网络所提取到的特征进行遍历搭配;/n步骤2、针对于步骤1中得到的所有的搭配情况,对任务网络按照正式训练时提前设定好的参数,利用测试集部分进行训练;/n步骤3、针对于步骤2中得到的每种搭配对应的模型,对其在测试集上进行测试,记录每一种搭配所对应的测试结果;/n步骤4、针对于步骤3中所对应的每一种测试结果,选择效果最好的结果对应的模态特征嵌入预训练网络搭配;/n步骤5、对于步骤4中选出的网络搭配,将任务模型在这种搭配下所对应的训练集的特征下进行训练,训练得到的模型就是最优的模型。/n

【技术特征摘要】
1.多模态特征嵌入预训练网络搭配效果评估的上界替代法,其特征在于,包括以下步骤:
步骤1、将所有模态特征嵌入预训练网络所提取到的特征进行遍历搭配;
步骤2、针对于步骤1中得到的所有的搭配情况,对任务网络按照正式训练时提前设定好的参数,利用测试集部分进行训练;
步骤3、针对于步骤2中得到的每种搭配对应的模型,对其在测试集上进行测试,记录每一种搭配所对应的测试结果;
步骤4、针对于步骤3中所对应的每一种测试结果,选择效果最好的结果对应的模态特征嵌入预训练网络搭配;
步骤5、对于步骤4中选出的网络搭配,将任务模型在这种搭配...

【专利技术属性】
技术研发人员:姜竹青邬健宁门爱东王海婴徐雍宁
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1