用于生成图像描述信息的方法和装置制造方法及图纸

技术编号:25479762 阅读:24 留言:0更新日期:2020-09-01 23:01
本申请实施例公开了用于生成图像描述信息的方法和装置。该方法的一具体实施方式包括:获取待描述图像;将该待描述图像输入至预先训练的图像描述模型,生成图像描述信息,其中,该图像描述模型用于表征图像描述信息与待描述图像之间的对应关系,该图像描述模型中包括基于注意力机制的图表示网络,该图表示网络用于提取该待描述图像中的实例和实例之间的关系。该实施方式有效地利用了图像中所包括的位置信息,有助于更准确地生成图像描述信息。

【技术实现步骤摘要】
用于生成图像描述信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成图像描述信息的方法和装置。
技术介绍
随着人工智能技术的飞速发展,图像描述(imagecaption)任务也取得了越来越多的应用。相关的方式通常包括利用不同的感受野(ReceptiveField)从图像中提取实例(instance),进而根据图像语义信息确定位置,从而生成图像描述信息。
技术实现思路
本申请实施例提出了用于生成图像描述信息的方法和装置。第一方面,本申请实施例提供了一种用于生成图像描述信息的方法,该方法包括:获取待描述图像;将待描述图像输入至预先训练的图像描述模型,生成图像描述信息,其中,图像描述模型用于表征图像描述信息与待描述图像之间的对应关系,图像描述模型中包括基于注意力机制(attention)的图表示网络,图表示网络用于提取待描述图像中的实例和实例之间的关系(translation)。在一些实施例中,上述图表示网络的输入包括:实例查询向量、实例键向量、实例值向量、关系查询向量、关系键向量、关系值向量、关系构建向量,其中,上述关系构建向量用于表征实例之间是否具备关系。在一些实施例中,上述图表示网络的输入还包括:门向量,其中,上述门向量用于表征图像中各通道的特征。在一些实施例中,上述关系包括以下至少一项:一对一关系,一对多关系。在一些实施例中,上述图像描述模型包括编码网络和解码网络,上述编码网络和解码网络分别包括上述图表示网络;以及上述将待描述图像输入至预先训练的图像描述模型,生成图像描述信息,包括:基于待描述图像提取特征,生成图像特征表示,其中,图像特征表示包括实例特征和关系特征;将实例特征和关系特征输入至包括图表示网络的编码网络,生成编码向量;基于将编码向量输入包括图表示网络的解码网络,生成图像描述信息。在一些实施例中,上述基于待描述图像提取特征,生成图像特征表示,包括:将待描述图像输入预先训练的特征提取网络,生成初始特征表示;将初始特征表示与预设的位置编码进行结合,生成图像特征表示。在一些实施例中,上述位置编码包括二维位置编码。第二方面,本申请实施例提供了一种用于生成图像描述信息的装置,该装置包括:获取单元,被配置成获取待描述图像;生成单元,被配置成将待描述图像输入至预先训练的图像描述模型,生成图像描述信息,其中,图像描述模型用于表征图像描述信息与待描述图像之间的对应关系,图像描述模型中包括基于注意力机制的图表示网络,图表示网络用于提取待描述图像中的实例和实例之间的关系。在一些实施例中,上述图表示网络的输入包括:实例查询向量、实例键向量、实例值向量、关系查询向量、关系键向量、关系值向量、关系构建向量,其中,上述关系构建向量用于表征实例之间是否具备关系。在一些实施例中,上述图表示网络的输入还包括:门向量,其中,上述门向量用于表征图像中各通道的特征。在一些实施例中,上述关系包括以下至少一项:一对一关系,一对多关系。在一些实施例中,上述图像描述模型包括编码网络和解码网络,上述编码网络和解码网络分别包括上述图表示网络;以及上述生成单元包括:第一生成模块,被配置成基于待描述图像提取特征,生成图像特征表示,其中,图像特征表示包括实例特征和关系特征;第二生成模块,被配置成将实例特征和关系特征输入至包括图表示网络的编码网络,生成编码向量;第三生成模块,被配置成基于将编码向量输入包括图表示网络的解码网络,生成图像描述信息。在一些实施例中,上述第一生成模块包括:第一生成子模块,被配置成将待描述图像输入预先训练的特征提取网络,生成初始特征表示;第二生成子模块,被配置成将初始特征表示与预设的位置编码进行结合,生成图像特征表示。在一些实施例中,上述位置编码包括二维位置编码。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于生成图像描述信息的方法和装置,首先获取待描述图像。而后,将待描述图像输入至预先训练的图像描述模型,生成图像描述信息。其中,图像描述模型用于表征图像描述信息与待描述图像之间的对应关系。图像描述模型中包括基于注意力机制的图表示网络,图表示网络用于提取待描述图像中的实例和实例之间的关系。从而有效地利用了图像中所包括的位置信息,有助于更准确地生成图像描述信息。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请的一个实施例可以应用于其中的示例性系统架构图;图2是根据本申请的用于生成图像描述信息的方法的一个实施例的流程图;图3是根据本申请的实施例的用于生成图像描述信息的方法的一个应用场景的示意图;图4是根据本申请的用于生成图像描述信息的方法的又一个实施例的流程图;图5是根据本申请的用于生成图像描述信息的装置的一个实施例的结构示意图;图6是适于用来实现本申请的实施例的电子设备的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于生成图像描述信息的方法或用于生成图像描述信息的装置的示例性架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件、图像处理类应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持图像显示的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上本文档来自技高网...

【技术保护点】
1.一种用于生成图像描述信息的方法,包括:/n获取待描述图像;/n将所述待描述图像输入至预先训练的图像描述模型,生成图像描述信息,其中,所述图像描述模型用于表征图像描述信息与待描述图像之间的对应关系,所述图像描述模型中包括基于注意力机制的图表示网络,所述图表示网络用于提取所述待描述图像中的实例和实例之间的关系。/n

【技术特征摘要】
1.一种用于生成图像描述信息的方法,包括:
获取待描述图像;
将所述待描述图像输入至预先训练的图像描述模型,生成图像描述信息,其中,所述图像描述模型用于表征图像描述信息与待描述图像之间的对应关系,所述图像描述模型中包括基于注意力机制的图表示网络,所述图表示网络用于提取所述待描述图像中的实例和实例之间的关系。


2.根据权利要求1所述的方法,其中,所述图表示网络的输入包括:实例查询向量、实例键向量、实例值向量、关系查询向量、关系键向量、关系值向量、关系构建向量,其中,所述关系构建向量用于表征实例之间是否具备关系。


3.根据权利要求2所述的方法,其中,所述图表示网络的输入还包括:门向量,其中,所述门向量用于表征图像中各通道的特征。


4.根据权利要求3所述的方法,其中,所述关系包括以下至少一项:一对一关系,一对多关系。


5.根据权利要求1-4之一所述的方法,其中,所述图像描述模型包括编码网络和解码网络,所述编码网络和解码网络分别包括所述图表示网络;以及
所述将所述待描述图像输入至预先训练的图像描述模型,生成图像描述信息,包括:
基于所述待描述图像提取特征,生成图像特征表示,其中,所述图像特征表示包括实例特征和关系特征;
将所述实例特征和关系特征输入至所述包括图表示网络的编码网...

【专利技术属性】
技术研发人员:韩宏炜张永华
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1