一种基于多层编码器的并行图像描述方法技术

技术编号：26263034 阅读：33 留言：0更新日期：2020-11-06 18:02

本发明专利技术公开了一种基于多层编码器的并行图像描述方法，涉及计算机视觉技术领域，方法包括：输入待描述的图像；对图像进行编码处理，获得多层特征；对每一层特征分别进行维度变换，降低特征的维度；将维度变换后的多层特征输入解码器，对多层特征进行并行解码处理，得到相应的图像描述。本发明专利技术将编码器输出的多层特征采取顺序或者逆序并行的方式输入解码器中，产生对图像中各层目标的语义描述，满足细粒度的描述要求。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多层编码器的并行图像描述方法
本专利技术涉及计算机视觉
，特别是涉及一种基于多层编码器的并行图像描述方法。
技术介绍
随着人工智能时代的到来，视觉技术对人类实现机器人或无人系统的智能化作用越来越重要。它被广泛的应用于生产制造、道路交通、公共安全等领域，如在线产品缺陷检测、车辆与行人识别、海空多目标识别等。随着人工智能技术的进一步发展，除了让视觉系统具备“观察”事物能力外，让其拥有“理解”事物的能力，则将使机器人或其它无人系统在复杂的场景中做出更为准确的决策和服务。图像描述(imagecaptioning/descriptive)，是计算机视觉、自然语言处理交叉领域中关于场景理解任务的一个主要研究方向，也是当前人工智能领域跨学科研究的热点和难点。图像描述是通过对输入图像或视频内容分析后，自动生成一条或若干条描述图像内容的语句，告诉人们或机器人关于图像的内容，如：“这些人在哪里？(例如，海滩，咖啡馆)，穿什么？重要的是他们在那里做什么”，就像看图说话一样。2015年谷歌团队受循环神经网络(RNN)做机器翻译...

【技术保护点】
1.一种基于多层编码器的并行图像描述方法，其特征在于，包括以下步骤：/n输入待描述的图像；/n对图像进行编码处理，获得多层特征；/n对每一层特征分别进行维度变换，降低特征的维度；/n将维度变换后的多层特征输入解码器，对多层特征进行并行解码处理，得到相应的图像描述。/n

【技术特征摘要】
1.一种基于多层编码器的并行图像描述方法，其特征在于，包括以下步骤：
输入待描述的图像；
对图像进行编码处理，获得多层特征；
对每一层特征分别进行维度变换，降低特征的维度；
将维度变换后的多层特征输入解码器，对多层特征进行并行解码处理，得到相应的图像描述。

2.如权利要求1所述的一种基于多层编码器的并行图像描述方法，其特征在于，维度变换后的多层特征采用以下方式输入解码器：
从低层到高层并行输进解码器从低层到高层的堆叠层中。

3.如权利要求2所述的一种基于多层编码器的并行图像描述方法，其特征在于，所述解码器对多层特征进行并行解码处理的方法如下：
把最低层特征与标准语句的序列信息输进解码器的第一层layer1，生成第一层的描述；
提取第一层描述的语义送进解码器的第二层layer2，同时在layer2输入次低层的特征，生成第二层的描述；
提取第二层描述的语义送进解码器的第三层layer3，同时在layer3输入次次低层的特征，生成第三层的描述；
以此类推，直到所有层的特征均输入到解码器对应的堆叠层中，得到最终的图像描述。

4.如权利要求1所述的一种基于多层编码器的...

【专利技术属性】
技术研发人员：杨小宝，武君胜，何婵，王军，王文涛，
申请(专利权)人：西北工业大学，西安邮电大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人