一种基于隐藏信息学习的图像美学描述生成方法技术

技术编号:27938961 阅读:14 留言:0更新日期:2021-04-02 14:19
本发明专利技术公开了一种基于隐藏信息学习的图像美学描述生成的方法。本发明专利技术步骤如下:(1)模型预处理。采用目标检测网络Enc

【技术实现步骤摘要】
一种基于隐藏信息学习的图像美学描述生成方法
本专利技术提出了一种基于隐藏信息学习的图像美学描述生成的方法,主要涉及一种生成对抗学习框架,针对标记数据规模小、噪声大的问题,利用隐藏信息学习(LearningUsingPrivilidgedInformation,LUPI)的思想,对噪声数据进行可信度估计,作为对抗损失函数的松弛项,提升模型训练效率和性能。
技术介绍
图像美学质量评价(PhotoQualityAssessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。相关研究任务大致可以分为五类,即质量二分类(专业/业余,美/丑,好/坏)、质量分数预测(如利用0-10分的分数描述美观程度)、质量分数分布预测(同一幅图像,不同观测者主观标记分数的概率分布)、美学因素预测(构图、光影、配色等各个因素的优劣等级)和美学描述(对图像美学进行文字评论,论述图像为什么好/坏)。当前关于图像美学质量的研究主要集中在前三类任务,对应的美学数据库标记数据质量高、规模大。相比之下,美学因素预测和美学描述对于图像美学的理解意义重大,但相关研究还处于起步阶段,而且标记数据质量低、规模少,难以满足大规模深度网络对训练样本的需求。现有的绝大部分方法只基于图像提取特征,且集中在美学质量的分类或分数预测任务。近年来,出现了少量工作研究图像美学因素分析及文本评论/描述生成问题。例如,Chang等人利用卷积神经网络与长短时记忆网络,并构建美学因素引导及混合机制,进行图像美学描述,不过对于生成文本缺少可靠的指导。文本评论信息对于理解图像美学机理意义重大。然而,现有图像美学评论数据噪声大、数据量小,难以满足深度网络的训练需求。因此,如何利用有限、有噪声数据学习文本与图像之间的关联关系,探索图像美学质量评价的因果推理机制,是目前的研究热点及难点。在图像美学描述方法中,存在两方面技术难点。其一为小样本下的模型学习问题,考虑到现有的图像描述模型对于大规模标准样本的需求,如何设计有效的学习策略,基于小样本进行训练;同时,标记样本中存在大量噪声,现有对抗学习中的判别机制对真实样本与生成样本进行硬性划分,必然会引入错误信息,如何设计一种非对称联合学习方法,获取有效信息并避免引入噪声信息。
技术实现思路
本专利技术的目的是针对现有技术的不足,提供一种基于隐藏信息学习的图像美学描述生成的方法。本专利技术解决其技术问题所采用的技术方案包括如下步骤:步骤(1)模型预处理模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征。步骤(2)基于对抗学习的跨模态一致性特征提取利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似。步骤(3)生成多因素控制的美学文本评论以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论。步骤(4)基于多任务约束判别网络,实现美学因素标记和文本质量的特征准确性。该多任务约束判别网络采用文本质量预测损失和美学因素预测损失。基于文本质量预测和美学因素预测以多任务学习形式,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性。对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。步骤(5)基于隐藏信息学习的对抗损失基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练。进一步的,所述的步骤(1)所述的模型预处理:1-1对目标检测网络Encv和Transformer网络Enct进行预训练,目标检测网络Encv通过大规模图像目标检测数据集进行预训练,Transformer网络Enct通过自然语言处理数据集进行预训练。1-2将预训练好的目标检测网络Encv和Transformer网络Enct在美学质量评价数据集上进行微调,以获取较好的特征提取能力。在微调阶段采用半监督学习的形式。在“美学因素编码器Encf-视觉编码器Encv-文本解码器Dect-多个判别网络”支路,目标检测网络Encv按照标准对抗生成学习思路进行学习。在“美学因素编码器Encf-文本编码器Enct-文本解码器Dect-多个判别网络”支路,Transformer网络Enct采用循环生成对抗网络的思想,对文本生成增加重构一致性约束。1-3将输入图像输入到微调好的目标检测网络Encv,用于从中提取多尺度图像特征;将真实文本评论输入到Transformer网络Enct,用于从真实文本评论中提取多尺度文本特征。进一步的,所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取:2-1利用对抗学习思想,构建特征模态判别器Dm。Dm需要判断输入特征的模态。将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似,从而欺骗Dm。2-2所提取的多尺度图像特征和多尺度文本特征需要精确表征美学质量。因此采用模态判别损失Lm:其中,Dm(·)为表示特征的概率函数,fv表示多尺度图像特征,ft表示多尺度文本特征。进一步的,步骤(3)所述的生成多因素控制的美学评论:3-1以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器Dect中,生成文本评论。3-2在评论解码器Dect中利用协同注意力模块挖掘多尺度图像特征和多尺度文本特征的关联关系,并利用协同注意力模块输出文本聚合特征,用于文本评论的生成。进一步的,所步骤(4)所述的基于多任务约束判别网络,实现美学因素标记和文本质量的特征准确性,具体是如下:4-1质量预测损失La:质量预测损失包含多尺度图像特征和多尺度文本特征,采用L2损失,用于多尺度图像特征和多尺度文本特征的有效性。4-2美学因素预测损失Lfact:美学因素预测损失包含真实文本评论和生成文本评论,采用交叉熵损失,用于约束生成文本评论的合理性。4-3.对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练。进一步的,步骤(5)所述的基于隐藏信息学习的对抗损失:基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在损失函数中引入可学习的松弛因子指导模型的训练。具体而言,在判别网络中引入两组参数w和w*,对抗损失拟采用HingeLoss形式,需要求解以下问题:s.t.其中,w和w*为网络权重参数,b和b*为网络偏置量,γ和C为权重系数,yi本文档来自技高网
...

【技术保护点】
1.一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于包括如下步骤:/n步骤(1)模型预处理/n模型采用预训练好的目标检测网络Enc

【技术特征摘要】
1.一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于包括如下步骤:
步骤(1)模型预处理
模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征;
步骤(2)基于对抗学习的跨模态一致性特征提取
利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器;使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似;
步骤(3)生成多因素控制的美学文本评论
以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;
步骤(4)基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;
该多任务约束判别网络采用文本质量预测损失和美学因素预测损失;基于文本质量预测和美学因素预测以多任务学习形式,对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练;
步骤(5)基于隐藏信息学习的对抗损失
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练。


2.根据权利要求1所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于所述的步骤(1)所述的模型预处理,具体实现如下:
1-1对目标检测网络Encv和Transformer网络Enct进行预训练,目标检测网络Encv通过大规模图像目标检测数据集进行预训练,Transformer网络Enct通过自然语言处理数据集进行预训练;
1-2将预训练好的目标检测网络Encv和Transformer网络Enct在美学质量评价数据集上进行微调,以获取更好的特征提取能力;在微调阶段采用半监督学习的形式;在“美学因素编码器Encf-视觉编码器Encv-文本解码器Dect-多个判别网络”支路,目标检测网络Encv按照标准对抗生成学习思路进行学习;在“美学因素编码器Encf-文本编码器Enct-文本解码器Dect-多个判别网络”支路,Transformer网络Enct采用循环生成对抗网络的思想,对文本生成增加重构一致性约束;
1-3将输入图像输入到微调好的目标检测网络Encv,用于从中提取多尺度图像特征;将真实文本评论输入到Transformer网络Enct,用于从真实文本评论中提取多尺度文本特征。


3.根据权利要求2所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取,具体实现如下:
2-1利用对抗学习思想,...

【专利技术属性】
技术研发人员:俞俊李相高飞
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1