【技术实现步骤摘要】
基于轮廓特征增强的图像描述方法
[0001]本专利技术涉及图像描述
,具体涉及一种基于轮廓特征增强的图像描述方法。
技术介绍
[0002]随着互联网技术的快速发展和应用,从图像获取信息、以图像传递信息逐渐成为人们日常生活的主流,为图像描述技术带来了极大的机遇和挑战。图像描述作为现代计算机跨模态领域的一个代表性任务,贯通了计算机视觉与自然语言处理两个领域的技术,旨在让计算机识别、分析和理解给定图像的内容,并准确生成流畅自然的描述性语句,辅助信息传递。图像描述技术在教育、辅助医疗、人机交互等方面具有广阔的实际应用价值和前景。
[0003]挖掘提取和分析理解图像中的语义信息是图像描述技术的关键。现有的图像描述技术通常采用编码器
‑
解码器结构,即利用预训练的视觉特征提取器编码图像,获取图像中的语义,再联合部分已经生成的文本信息,送入解码器来预测文本描述。随着更强大的视觉特征提取器的开发,性能也将不断提高。然而,仅仅依靠功能强大的视觉特征提取器的发展不足以增强视觉内容的贡献。为此,一些技术提出利用视觉内 ...
【技术保护点】
【技术特征摘要】
1.一种基于轮廓特征增强的图像描述方法,通过图像描述模型识别给定的图像,生成文本描述;图像描述模型的训练过程,包括以下步骤:步骤一、轮廓增强图像特征提取:通过边缘检测方法得到图像的轮廓图,再将图像及对应的轮廓图分别送入视觉特征提取器中进行图像编码,分别得到图像的网格视觉特征和轮廓图的网格视觉特征;将图像的网格视觉特征与图像的全局特征拼接,得到融合局部和全局视觉信息的图像视觉特征;将输入至Transformer编码器得到图像特征;将轮廓图的网格视觉特征与轮廓图的全局特征拼接,得到融合局部和全局视觉信息的轮廓视觉特征;将输入至Transformer编码器得到轮廓特征;将图像特征和轮廓特征分别经过多头自注意力机制和层归一化,并融合得到轮廓增强图像特征;步骤二、联合预测:初始化语义向量,将轮廓增强图像特征和语义向量共同输入至Transformer解码器,通过自注意力机制编码,学习视觉信息与高级语义间的潜在关联,并与语义向量相加作为基于视觉特征获取的高级语义特征;将轮廓增强图像特征和高级语义特征作为标准Transformer解码器结构的输入,按顺序生成文本描述,为中的第个单词,为中单词的总数;步骤三、联合优化:设置高级语义预测损失;高级语义词,表示从语义特征到单词的降维映射,为不对称损失,表示借助数据集标注构建的语义词标签;定义图像描述预测损失,其中,表示标注的描述句,CE代表交叉熵损失;图像描述模型的整体损失函数。2.根据权利要求1所述的基于轮廓特征增强的图像描述方法,其特征在于:步骤一中,将图像的网格视觉特征与图像的全局特征拼接前,先将图像的网格视觉特征从二维展开为一维,则图像视觉特征;其中,为图像的全局特征,为视觉特征提取器获得的图像中第个一维的网格视觉特征,为网格视觉特征的总数,为拼接操作。3.根据权利要求1或...
【专利技术属性】
技术研发人员:张勇东,毛震东,赵慧婷,陈伟东,王婷,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。