【技术实现步骤摘要】
一种基于隐藏信息学习的图像美学描述生成方法
本专利技术提出了一种基于隐藏信息学习的图像美学描述生成的方法,主要涉及一种生成对抗学习框架,针对标记数据规模小、噪声大的问题,利用隐藏信息学习(LearningUsingPrivilidgedInformation,LUPI)的思想,对噪声数据进行可信度估计,作为对抗损失函数的松弛项,提升模型训练效率和性能。
技术介绍
图像美学质量评价(PhotoQualityAssessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。相关研究任务大致可以分为五类,即质量二分类(专业/业余,美/丑,好/坏)、质量分数预测(如利用0-10分的分数描述美观程度)、质量分数分布预测(同一幅图像,不同观测者主观标记分数的概率分布)、美学因素预测(构图、光影、配色等各个因素的优劣等级)和美学描述(对图像美学进行文字评论,论述图像为什么好/坏)。当前关于图像美学质量的研究主要集中在前三类任务,对应的美学数据库标记数据质量高、规模大。相比之下,美学因素预测和美学描述对于图像美学的理解意义重大,但相关研究还处于起步阶段,而且标记数据质量低、规模少,难以满足大规模深度网络对训练样本的需求。现有的绝大部分方法只基于图像提取特征,且集中在美学质量的分类或分数预测任务。近年来,出现了少量工作研究图像美学因素分析及文本评论/描述生成问题。例如,Chang等人利用卷积神经网络与长短时记忆网络,并构建美学因素引导及混合机制,进行图像美学描述,不过对于生成文本缺少可靠的指导。文本评论信息对于 ...
【技术保护点】
1.一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于包括如下步骤:/n步骤(1)模型预处理/n模型采用预训练好的目标检测网络Enc
【技术特征摘要】
1.一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于包括如下步骤:
步骤(1)模型预处理
模型采用预训练好的目标检测网络Encv和Transformer网络Enct为基准,目标检测网络Encv用于从输入图像中提取多尺度图像特征,Transformer网络Enct用于从真实文本评论中提取多尺度文本特征;
步骤(2)基于对抗学习的跨模态一致性特征提取
利用对抗学习思想,构建特征模态判别器,将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器;使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似;
步骤(3)生成多因素控制的美学文本评论
以美学因素标记作为辅助信息,利用美学因素编码器Encf提取美学因素标记对应的语义特征,并将该语义特征输入到评论解码器中,生成文本评论;
步骤(4)基于多任务约束判别网络,实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性;
该多任务约束判别网络采用文本质量预测损失和美学因素预测损失;基于文本质量预测和美学因素预测以多任务学习形式,对文本质量预测损失和美学因素预测损失进行加权求和,用于指导模型的训练;
步骤(5)基于隐藏信息学习的对抗损失
基于隐藏信息学习的思想,依据真实文本评论与美学质量之间的相关性强弱,在对抗损失函数中引入可学习的松弛因子,指导模型的训练。
2.根据权利要求1所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于所述的步骤(1)所述的模型预处理,具体实现如下:
1-1对目标检测网络Encv和Transformer网络Enct进行预训练,目标检测网络Encv通过大规模图像目标检测数据集进行预训练,Transformer网络Enct通过自然语言处理数据集进行预训练;
1-2将预训练好的目标检测网络Encv和Transformer网络Enct在美学质量评价数据集上进行微调,以获取更好的特征提取能力;在微调阶段采用半监督学习的形式;在“美学因素编码器Encf-视觉编码器Encv-文本解码器Dect-多个判别网络”支路,目标检测网络Encv按照标准对抗生成学习思路进行学习;在“美学因素编码器Encf-文本编码器Enct-文本解码器Dect-多个判别网络”支路,Transformer网络Enct采用循环生成对抗网络的思想,对文本生成增加重构一致性约束;
1-3将输入图像输入到微调好的目标检测网络Encv,用于从中提取多尺度图像特征;将真实文本评论输入到Transformer网络Enct,用于从真实文本评论中提取多尺度文本特征。
3.根据权利要求2所述的一种基于隐藏信息学习的图像美学描述生成的方法,其特征在于所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取,具体实现如下:
2-1利用对抗学习思想,...
【专利技术属性】
技术研发人员:俞俊,李相,高飞,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。