本发明专利技术公开了一种基于无偏深度迁移学习的视频目标识别方法,包括:(1)构建源域图像集和目标域图像集;(2)构建偏见属性预测模型;(3)构建基于迁移学习的训练框架,包括与偏见属性预测模型结构相同的两条支路,并在每条支路的相同位置增加一个适应层,其中,第一支路的输入为以源域图像和任务标签组成的样本第二支路的输入为视频帧图像;(3)构建训练框架的损失函数,包括偏见属性预测模型的偏见属性分类损失、第一支路的任务属性分类损失以及两条支路的适应层之间的MMD距离损失;(4)对训练框架进行训练,提取参数确定的第二支路作为无偏视频目标识别模型;(5)将待识别视频帧输入至无偏视频目标识别模型,输出目标识别结果。
【技术实现步骤摘要】
基于无偏深度迁移学习的视频目标识别方法
本专利技术属于目标识别领域,具体涉及一种基于无偏深度迁移学习的视频目标识别方法。
技术介绍
许多机器学习和数据挖掘算法的一个主要假设是,训练和测试的数据必须在相同的特征空间,具有相同的分布。然而,在许多实际应用中,这种假设可能不成立。近年来,迁移学习作为一种新的学习框架应运而生。迁移学习是把一个领域(即源域)的知识,迁移到另外一个领域(即目标域),使得目标域能够取得更好的学习效果。通常,源域数据量充足,而目标域数据量较小,这种场景就很适合做迁移学习。例如我们要对一个任务进行分类,但是此任务中数据不充足(目标域),然而却有大量相关的训练数据(源域),但是此训练数据与所需进行的分类任务中的测试数据特征分布不同(例如视频目标识别中,图片数据集中的数据充足,然而所需进行的分类任务的视频截图却极度缺乏),在这种情况下如果可以采用合适的迁移学习方法则可以大大提高样本不充足任务的分类识别结果。虽然深度迁移学习在实际应用中得到了很大的发展,然而最新的一些研究表明,深度迁移学习模型存在不公平的偏见,这是因为深度迁移学习模型也会对一些无关的属性很敏感,并且其决策往往会依赖于这种错误的属性关联。这种偏见可能表现在:当这类系统用于分类包含人物的图像时,它们可能会将性别、种族或年龄等保护属性与物体或动作标签过度关联,从而放大社会刻板印象,导致错误的决策。而且,经过训练的模型大大扩大了某些标签与保护属性的关联,超出了人们对有偏见的数据集的接受程度。因此,当这种存在偏见的深度迁移学习模型反应在识别或检测图像时,可能会造成许多负面影响和社会危害。一般来说,减轻和防止深度迁移学习模型在决策时产生偏见的工作主要基于三个方面:(1)通过对数据集进行预处理来消除样本数据集中存在的偏见;(2)直接对深度迁移学习模型进行修改来消除模型中存在的偏见;(3)对深度迁移学习模型进行公平性的评估。虽然这些方法对于防止深度迁移学习模型在决策时产生偏见都是有效的,但是最新的研究表明,深度迁移学习模型会放大样本数据集中存在的偏见。鉴于深度迁移学习模型存在上述的偏见问题,以及目前对于防止这种偏见的研究所存在的局限性,研究一种没有偏见的视频目标识别方法具有极其重要的理论与实践意义。
技术实现思路
本专利技术的目的是提供一种基于无偏深度迁移学习的视频目标识别方法,通过构建无偏见的深度迁移学习模型来对视频帧中目标进行识别,以此提升目标识别的准确性。为实现上述专利技术目的,本专利技术提供以下技术方案:一种基于无偏深度迁移学习的视频目标识别方法,包括以下步骤:(1)构建包含有任务标签和偏见标签的源域图像集,从视频中抽取的视频帧图像构成目标域图像集;(2)构建偏见属性预测模型,以源域图像和偏见标签组成的样本作为偏见属性预测模型的输入,输出为偏见属性预测值;(3)构建基于迁移学习的训练框架,包括与偏见属性预测模型结构相同的两条支路,并在每条支路的相同位置增加一个适应层,其中,第一一支路的输入为以源域图像和任务标签组成的样本,输出为任务属性的预测值,第二支路的输入为视频帧图像,输出为任务属性的预测值;(3)构建训练框架的损失函数,该损失函数包括偏见属性预测模型的偏见属性分类损失、第一支路的任务属性分类损失以及两条支路的适应层之间的MMD距离损失;(4)根据源域图像集和目标于图像集,利用损失函数对训练框架进行训练,训练结束后,提取参数确定的第二支路作为无偏视频目标识别模型;(5)将待识别视频帧输入至无偏视频目标识别模型中,输出目标识别结果。与现有技术相比,本专利技术具有的有益效果至少包括:本专利技术提供的基于无偏深度迁移学习的视频目标识别方法,将源域图像和视频帧图像采用迁移学习的方式,来优化模型参数,通过在学习的过程中,还将偏见属性引起的损失去掉,以弱化偏见属性对目标任务的识别结果,以得到无偏视频目标识别模型,利用该无偏视频目标识别模型识别视频帧图像的目标,能够避免偏见属性对识别结果的影响,提高了目标识别的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。图1是实施例提供的基于无偏深度迁移学习的视频目标识别方法的流程示意图;图2为实施例提供的视频目标识别模型的训练框架。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。为了解决模型因为存在偏见导致目标识别结果不准确的问题。实施例提供了一种基于无偏深度迁移学习的视频目标识别方法,通过构造一个深度学习网络来获得偏见的损失函数分数,将其与原始目标任务的损失函数分数进行叠加后作为无偏深度迁移学习模型总的损失函数,从而降低深度学习模型对无关特征的敏感度。然后用源域数据集和目标域数据集去训练模型,得到无偏深度迁移学习模型,进一步保证深度迁移学习模型做出公平的决策。如图1所示,实施例提供的基于无偏深度迁移学习的视频目标识别方法,包括以下步骤:步骤1,定义基于迁移学习的视频目标识别模型的偏见。本专利技术把视频目标识别模型在做出决策时,受到无关但敏感特征的影响,并且其决策可能会依赖于这种错误的属性关联的现象定义为模型的偏见行为。以性别歧视为例,假设性别标签是深度学习模型无关但敏感的属性,在其它标签的预测任务中,虽然不包括性别预测,但性别特征可能会影响其它分类任务,从而使深度学习产生性别歧视,即模型存在偏见。步骤2,数据集图片准备及预处理。步骤2主要用于构建用于训练模型的样本数据集,包括构建包含任务标签和偏见标签的源域图像集,该源域图像集可以是PascalVOC2007数据集抽取的一部分信息,除了包含大量的场景图像外,还包括了视频目标识别任务的任务标签,例如识别医院场景中的职业,该些职业包括医生、护士、保洁人员、保安、患者等。还包括影响这个职业的偏见标签,如性别标签、种族标签等。样本数据集还包括目标域图像集,该目标域图像集经包含从视频帧中抽取的视频帧图像,不包含视频帧图像的任何标签,且这些视频帧图像非常少,可能只有10帧或者20帧,这些视频帧图像由于个数太少不足以训练视频目标识别学习。在获得源域图像集和目标域图像集之后,还需要对源域图像和视频帧图像进行归一化处理,然后才能输入至模型中训练模型。步骤3,构建偏见属性预测模型。构建的偏见属性预测模型旨在学习从源域图像中预测偏见属性信息,其输入为以源域图像和偏见标签组成的样本,输出为偏见属性预测值。偏见属性预测模型可以采用由卷积层和全连接层组成的CNN网络,具体地采用由5个卷积层和3个全连接层依次连接组成的CNN网络,激活函数采本文档来自技高网...
【技术保护点】
1.一种基于无偏深度迁移学习的视频目标识别方法,其特征在于,包括以下步骤:/n(1)构建包含有任务标签和偏见标签的源域图像集,从视频中抽取的视频帧图像构成目标域图像集;/n(2)构建偏见属性预测模型,以源域图像和偏见标签组成的样本作为偏见属性预测模型的输入,输出为偏见属性预测值;/n(3)构建基于迁移学习的训练框架,包括与偏见属性预测模型结构相同的两条支路,并在每条支路的相同位置增加一个适应层,其中,第一一支路的输入为以源域图像和任务标签组成的样本,输出为任务属性的预测值,第二支路的输入为视频帧图像,输出为任务属性的预测值;/n(3)构建训练框架的损失函数,该损失函数包括偏见属性预测模型的偏见属性分类损失、第一支路的任务属性分类损失以及两条支路的适应层之间的MMD距离损失;/n(4)根据源域图像集和目标于图像集,利用损失函数对训练框架进行训练,训练结束后,提取参数确定的第二支路作为无偏视频目标识别模型;/n(5)将待识别视频帧输入至无偏视频目标识别模型中,输出目标识别结果。/n
【技术特征摘要】
1.一种基于无偏深度迁移学习的视频目标识别方法,其特征在于,包括以下步骤:
(1)构建包含有任务标签和偏见标签的源域图像集,从视频中抽取的视频帧图像构成目标域图像集;
(2)构建偏见属性预测模型,以源域图像和偏见标签组成的样本作为偏见属性预测模型的输入,输出为偏见属性预测值;
(3)构建基于迁移学习的训练框架,包括与偏见属性预测模型结构相同的两条支路,并在每条支路的相同位置增加一个适应层,其中,第一一支路的输入为以源域图像和任务标签组成的样本,输出为任务属性的预测值,第二支路的输入为视频帧图像,输出为任务属性的预测值;
(3)构建训练框架的损失函数,该损失函数包括偏见属性预测模型的偏见属性分类损失、第一支路的任务属性分类损失以及两条支路的适应层之间的MMD距离损失;
(4)根据源域图像集和目标于图像集,利用损失函数对训练框架进行训练,训练结束后,提取参数确定的第二支路作为无偏视频目标识别模型;
(5)将待识别视频帧输入至无偏视频目标识别模型中,输出目标识别结果。
2.如权利要求1所述的基于无偏深度迁移学习的视频目标识别方法,其特征在于,构建的损失函数Loss为:
为偏见属性分类损失:
其中,c(xi)为偏见属性预测模型对第i个源域图像xi的偏见属性预测值,gi为第i个源域图像xi的偏见标签,为Lc(·)为交叉熵函数;
为任务属性分类损失和MMD距离损失组成的目标任务损失:
其...
【专利技术属性】
技术研发人员:陈晋音,徐思雨,陈治清,徐国宁,缪盛欢,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。