图像描述模型的训练方法、装置及存储介质制造方法及图纸

技术编号:21914695 阅读:33 留言:0更新日期:2019-08-21 12:38
本申请实施例公开了一种图像描述模型的训练方法,所述图像描述模型包括卷积编码神经网络和递归解码神经网络;所述方法包括:通过所述卷积编码神经网络,获取图像样本的图像特征向量;通过所述递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句;确定所述解码得到的语句与所述图像样本之间的匹配度,根据所述匹配度对所述递归解码神经网络进行调整;确定所述解码得到的语句的通顺度,根据所述通顺度对所述递归解码神经网络进行调整。

Training Method, Device and Storage Media of Image Description Model

【技术实现步骤摘要】
图像描述模型的训练方法、装置及存储介质
本申请涉及人工智能
,特别涉及一种图像描述模型的训练方法、装置及存储介质。
技术介绍
图像描述(ImageCaption),是指根据图像自动生成一段描述性文字,即看图说话。为了生成图像对应的描述性文字,首先需要检测出图像中的物体,理解物体之间的相互关系,然后再用合理的语言表达出来。图像描述技术,可以用于图像检索服务,帮助视觉障碍者理解图像,也可以用于图像场景分类,以及用户相册中的图像自动总结归类。图像描述技术还可以用于婴幼儿的教学,帮助婴幼儿学习说话和辨认图像中的物体和行为。在一些技术中,可以采用人工标注的图像-句子对来训练图像描述模型。另外,也可以使用半监督学习的技术,在模型的训练过程中使用没有对应关系的图像和句子。没有对应关系的句子数据可以用来训练一个语言模型,一个单独的图像集也可以用来训练一个物体识别模型。也可以使用域适应的方法,把一个数据域上成对的图像和句子数据,迁移到另外一个数据域上。在目标域上,只使用没有对应关系的图像和句子。目前,半监督以及域适应的方法,都是在监督学习的方法上,增加没有对应关系的图像和句子,来达到提升结果的目的。这些方法仍然需要成对的图像和句子数据来参与模型的训练。给图像标注对应的句子描述是一个非常费时费力的过程。
技术实现思路
本申请一些实施例提供了一种图像描述模型的训练方法、装置及储存介质,以避免对成对的图像样本和语句样本的依赖,提高图像描述的准确性。本申请实施例提供了一种图像描述模型的训练方法,所述图像描述模型包括卷积编码神经网络和递归解码神经网络;所述方法包括:通过所述卷积编码神经网络,获取图像样本的图像特征向量;通过所述递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句;确定所述解码得到的语句与所述图像样本之间的匹配度,根据所述匹配度对所述递归解码神经网络进行调整;确定所述解码得到的语句的通顺度,根据所述通顺度对所述递归解码神经网络进行调整。本申请实施例提供了一种图像描述模型的训练装置,所述图像描述模型包括卷积编码神经网络和递归解码神经网络;所述装置包括:编码模块,用于通过所述卷积编码神经网络,获取图像样本的图像特征向量;解码模块,通过所述递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句;调整模块,用于确定所述解码得到的语句与所述图像样本之间的匹配度,根据所述匹配度对所述递归解码神经网络进行调整;以及确定所述解码得到的语句的通顺度,根据所述通顺度对所述递归解码神经网络进行调整。本申请实施例还提供了一种非易失性计算机可读存储介质,其中所述存储介质中存储有机器可读指令,所述机器可读指令可以由处理器执行以完成上述方法。在本申请实施例提供的技术方案中,根据递归解码神经网络解码得到的语句的通顺度、以及所述解码得到的语句与图像样本之间的匹配度,对所述递归解码神经网络进行训练调整。这样,在图像描述模型的训练过程中,不需要成对的图像样本和语句样本作为训练集合,从而解除对成对的图像样本和语句样本的依赖,扩大了训练集合的范围,提高了图像描述模型的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为本申请一些实施例中的操作环境示意图;图2A和2B为本申请实施例中模型训练装置116的结构示意图。图3为本申请一些实施例提供的图像描述模型的训练方法的流程图;图4A和4B为本申请一些实施例中的图像描述模型的训练方法的另一流程图;图5为本申请一些实施例中递归解码神经网络的结构示意图;图6为本申请一些实施例中递归判别神经网络的结构示意图;图7为本申请一些实施例中图像描述模型训练装置的结构示意图;及图8为本申请一些实施例中图像描述模型训练装置的另一结构示意图。具体实施方式为使本申请的技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请进一步详细说明。为了描述上的简洁和直观,下文通过描述若干代表性的实施例来对本申请的方案进行阐述。但本文并未示出所有实施方式。实施例中大量的细节仅用于帮助理解本申请的方案,本申请的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本申请的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。说明书和权利要求书中的“包括”是指某种程度上至少包括,应当解释为除了包括之后提到的特征外,其它特征也可以存在。目前,由于深度学习在视觉领域的成功应用,研究者也将其引入到图像描述领域中,采用神经机器翻译的方法生成描述句子。基于深度学习的图像描述模型可以采用“编码-解码”的流程,首先使用卷积神经网络(CNN,ConvolutionalNeuralNetwork)提取图像特征向量,将整幅图像编码为一条维度固定的特征向量;然后使用递归神经网络(RNN,recurrentneuralnetwork)进行解码,按时间顺序逐个生成相关单词。CNN,是一种直接从图像底层的像素特征开始,逐层对图像进行特征提取的前馈神经网络,是编码器常用的实现模型,负责将图像编码成向量。RNN,是一种具有固定权值、外部输入和内部状态的神经网络,可以将其看作是以权值和外部输入为参数,关于内部状态的行为动力学。RNN是解码器常用的实现模型,负责将编码器生成的图像向量翻译成图像的文字描述。在图像描述模型的训练过程中,需要使用成对的图像样本和句子样本作为训练集合。训练集合不仅需要足够大,还需要尽量多样化。但是,给图像标注对应的句子描述是一个非常费时费力的过程。而且,如果训练集合的大小减小,图像描述的准确性也将降低。为此,本申请实施例提供了一种图像描述模型的训练方法,可以避免对成对的图像样本和语句样本的依赖,扩大训练集合的范围,从而提高图像描述模型的准确性。本申请实施例提供的图像描述模型训练方法可以由任何具有数据处理能力的计算机设备来执行,例如,终端设备或者服务器等等。当根据本申请实施例提供的方法完成图像描述模型的训练之后,可以将训练好的图像描述模型应用在所述服务器或者终端设备,用于为指定的图像生成对应的描述语句,例如,可以为用户提供图像检索服务、为用户相册中的图像自动分类,等等。图1为本申请一些实施例中的操作环境100的示意图。如图1所示,本申请实施例的图像描述模型训练方法可以由模型训练装置116来执行。在本申请一些实施例中,所述模型训练装置116用于对图像描述模型进行训练,得到训练好的图像描述模型,并将所述训练好的图像描述模型提供给服务器112,以便服务器112为终端设备104提供图像描述生成服务,例如为用户提供图像检索服务等等;或者,将训练好的图像描述模型提供给终端设备104,以便终端设备104为用户提供图像描述生成服务,例如为用户相册中的图像自动分类等等。在一些实施例中,所述模型训练装置116可以在一个或多个独立的数据处理装置或分布式计算机网络上实现,也可以集成在所述服务器11本文档来自技高网...

【技术保护点】
1.一种图像描述模型的训练方法,其特征在于,所述图像描述模型包括卷积编码神经网络和递归解码神经网络;所述方法包括:通过所述卷积编码神经网络,获取图像样本的图像特征向量;通过所述递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句;确定所述解码得到的语句与所述图像样本之间的匹配度,根据所述匹配度对所述递归解码神经网络进行调整;确定所述解码得到的语句的通顺度,根据所述通顺度对所述递归解码神经网络进行调整。

【技术特征摘要】
1.一种图像描述模型的训练方法,其特征在于,所述图像描述模型包括卷积编码神经网络和递归解码神经网络;所述方法包括:通过所述卷积编码神经网络,获取图像样本的图像特征向量;通过所述递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句;确定所述解码得到的语句与所述图像样本之间的匹配度,根据所述匹配度对所述递归解码神经网络进行调整;确定所述解码得到的语句的通顺度,根据所述通顺度对所述递归解码神经网络进行调整。2.根据权利要求1所述的方法,其特征在于,在获取所述图像样本的图像特征向量之后,进一步包括:将所述图像特征向量进行降维处理,得到降维后的图像特征向量;所述通过递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句,包括:将所述降维后的图像特征向量输入到所述递归解码神经网络,所述递归解码神经网络对所述降维后的图像特征向量进行解码,得到所述用于描述所述图像样本的语句。3.根据权利要求1所述的方法,其特征在于,所述通过递归解码神经网络,对所述图像特征向量进行解码,得到用于描述所述图像样本的语句包括:将所述图像特征向量输入到所述递归解码神经网络,得到输出的n个概率分布,其中,n表示所述解码得到的语句的长度;对于每个概率分布,分别在单词表中选择所述概率分布中最大概率值对应的单词,组成用于描述所述图像样本的语句。4.根据权利要求1所述的方法,其特征在于,确定所述解码得到的语句与所述图像样本之间的匹配度包括:根据物体检测模型对所述图像样本的检测结果,确定所述图像样本中包含的各物体以及所述各物体对应的权重;将解码得到的语句中包含的各个单词,与所述图像样本中包含的所述各物体进行匹配操作,并根据所述匹配结果以及所述各物体对应的权重,确定所述匹配度。5.根据权利要求1所述的方法,其特征在于,所述确定所述解码得到的语句的通顺度包括:将所述解码得到的语句输入递归判别神经网络,根据所述递归判别神经网络各个时刻的第一输出,确定所述解码得到的语句的通顺度。6.根据权利要求5所述的方法,其特征在于,所述根据所述递归判别神经网络各个时刻的输出,确定所述解码得到的语句的通顺度包括:根据以下公式确定所述通顺度:其中,radv代表所述通顺度,qt代表所述递归判别神经网络在t时刻的输出,n代表所述解码得到的语句的长度。7.根据权利要求5所述的方法,其特征在于,进一步包括:将语句样本输入到所述递归判别神经网络,获取所述递归判别神经网络各个时刻的第二输出;根据所述递归判别神经网络各个时刻的第一输出和所述第二输出,对所述递归判别神经网络进行调整。8.根据权利要求7所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:冯洋马林刘威罗杰波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1