用于生成图像描述信息的方法和装置制造方法及图纸

技术编号：25479762 阅读：24 留言：0更新日期：2020-09-01 23:01

本申请实施例公开了用于生成图像描述信息的方法和装置。该方法的一具体实施方式包括：获取待描述图像；将该待描述图像输入至预先训练的图像描述模型，生成图像描述信息，其中，该图像描述模型用于表征图像描述信息与待描述图像之间的对应关系，该图像描述模型中包括基于注意力机制的图表示网络，该图表示网络用于提取该待描述图像中的实例和实例之间的关系。该实施方式有效地利用了图像中所包括的位置信息，有助于更准确地生成图像描述信息。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成图像描述信息的方法和装置
本申请实施例涉及计算机
，具体涉及用于生成图像描述信息的方法和装置。
技术介绍
随着人工智能技术的飞速发展，图像描述(imagecaption)任务也取得了越来越多的应用。相关的方式通常包括利用不同的感受野(ReceptiveField)从图像中提取实例(instance)，进而根据图像语义信息确定位置，从而生成图像描述信息。
技术实现思路
本申请实施例提出了用于生成图像描述信息的方法和装置。第一方面，本申请实施例提供了一种用于生成图像描述信息的方法，该方法包括：获取待描述图像；将待描述图像输入至预先训练的图像描述模型，生成图像描述信息，其中，图像描述模型用于表征图像描述信息与待描述图像之间的对应关系，图像描述模型中包括基于注意力机制(attention)的图表示网络，图表示网络用于提取待描述图像中的实例和实例之间的关系(translation)。在一些实施例中，上述图表示网络的输入包括：实例查询向量、实例键向量、实例值向量、关系查询向量、关系键向量、关系值向量、关系构建向量，其中，上述关系构建向量用于表征实例之间是否具备关系。在一些实施例中，上述图表示网络的输入还包括：门向量，其中，上述门向量用于表征图像中各通道的特征。在一些实施例中，上述关系包括以下至少一项：一对一关系，一对多关系。在一些实施例中，上述图像描述模型包括编码网络和解码网络，上述编码网络和解码网络分别包括上述图表示网络；以及上述将待描述图像输入...

【技术保护点】
1.一种用于生成图像描述信息的方法，包括：/n获取待描述图像；/n将所述待描述图像输入至预先训练的图像描述模型，生成图像描述信息，其中，所述图像描述模型用于表征图像描述信息与待描述图像之间的对应关系，所述图像描述模型中包括基于注意力机制的图表示网络，所述图表示网络用于提取所述待描述图像中的实例和实例之间的关系。/n

【技术特征摘要】
1.一种用于生成图像描述信息的方法，包括：
获取待描述图像；
将所述待描述图像输入至预先训练的图像描述模型，生成图像描述信息，其中，所述图像描述模型用于表征图像描述信息与待描述图像之间的对应关系，所述图像描述模型中包括基于注意力机制的图表示网络，所述图表示网络用于提取所述待描述图像中的实例和实例之间的关系。

2.根据权利要求1所述的方法，其中，所述图表示网络的输入包括：实例查询向量、实例键向量、实例值向量、关系查询向量、关系键向量、关系值向量、关系构建向量，其中，所述关系构建向量用于表征实例之间是否具备关系。

3.根据权利要求2所述的方法，其中，所述图表示网络的输入还包括：门向量，其中，所述门向量用于表征图像中各通道的特征。

4.根据权利要求3所述的方法，其中，所述关系包括以下至少一项：一对一关系，一对多关系。

5.根据权利要求1-4之一所述的方法，其中，所述图像描述模型包括编码网络和解码网络，所述编码网络和解码网络分别包括所述图表示网络；以及
所述将所述待描述图像输入至预先训练的图像描述模型，生成图像描述信息，包括：
基于所述待描述图像提取特征，生成图像特征表示，其中，所述图像特征表示包括实例特征和关系特征；
将所述实例特征和关系特征输入至所述包括图表示网络的编码网...

【专利技术属性】
技术研发人员：韩宏炜，张永华，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人