图像描述模型的训练方法、装置及存储介质制造方法及图纸

技术编号：21914695 阅读：33 留言：0更新日期：2019-08-21 12:38

本申请实施例公开了一种图像描述模型的训练方法，所述图像描述模型包括卷积编码神经网络和递归解码神经网络；所述方法包括：通过所述卷积编码神经网络，获取图像样本的图像特征向量；通过所述递归解码神经网络，对所述图像特征向量进行解码，得到用于描述所述图像样本的语句；确定所述解码得到的语句与所述图像样本之间的匹配度，根据所述匹配度对所述递归解码神经网络进行调整；确定所述解码得到的语句的通顺度，根据所述通顺度对所述递归解码神经网络进行调整。

Training Method, Device and Storage Media of Image Description Model

全部详细技术资料下载

【技术实现步骤摘要】
图像描述模型的训练方法、装置及存储介质
本申请涉及人工智能
，特别涉及一种图像描述模型的训练方法、装置及存储介质。
技术介绍
图像描述(ImageCaption)，是指根据图像自动生成一段描述性文字，即看图说话。为了生成图像对应的描述性文字，首先需要检测出图像中的物体，理解物体之间的相互关系，然后再用合理的语言表达出来。图像描述技术，可以用于图像检索服务，帮助视觉障碍者理解图像，也可以用于图像场景分类，以及用户相册中的图像自动总结归类。图像描述技术还可以用于婴幼儿的教学，帮助婴幼儿学习说话和辨认图像中的物体和行为。在一些技术中，可以采用人工标注的图像-句子对来训练图像描述模型。另外，也可以使用半监督学习的技术，在模型的训练过程中使用没有对应关系的图像和句子。没有对应关系的句子数据可以用来训练一个语言模型，一个单独的图像集也可以用来训练一个物体识别模型。也可以使用域适应的方法，把一个数据域上成对的图像和句子数据，迁移到另外一个数据域上。在目标域上，只使用没有对应关系的图像和句子。目前，半监督以及域适应的方法，都是在监督学习的方法上，增加没有对应关系的图像和句子，来达到提升结果的目的。这些方法仍然需要成对的图像和句子数据来参与模型的训练。给图像标注对应的句子描述是一个非常费时费力的过程。
技术实现思路
本申请一些实施例提供了一种图像描述模型的训练方法、装置及储存介质，以避免对成对的图像样本和语句样本的依赖，提高图像描述的准确性。本申请实施例提供了一种图像描述模型的训练方法，所述图像描述模型包括卷积编码神经网络和递归解码神经网络；所述方法包括：通过所述卷积编码神经...

【技术保护点】
1.一种图像描述模型的训练方法，其特征在于，所述图像描述模型包括卷积编码神经网络和递归解码神经网络；所述方法包括：通过所述卷积编码神经网络，获取图像样本的图像特征向量；通过所述递归解码神经网络，对所述图像特征向量进行解码，得到用于描述所述图像样本的语句；确定所述解码得到的语句与所述图像样本之间的匹配度，根据所述匹配度对所述递归解码神经网络进行调整；确定所述解码得到的语句的通顺度，根据所述通顺度对所述递归解码神经网络进行调整。

【技术特征摘要】
1.一种图像描述模型的训练方法，其特征在于，所述图像描述模型包括卷积编码神经网络和递归解码神经网络；所述方法包括：通过所述卷积编码神经网络，获取图像样本的图像特征向量；通过所述递归解码神经网络，对所述图像特征向量进行解码，得到用于描述所述图像样本的语句；确定所述解码得到的语句与所述图像样本之间的匹配度，根据所述匹配度对所述递归解码神经网络进行调整；确定所述解码得到的语句的通顺度，根据所述通顺度对所述递归解码神经网络进行调整。2.根据权利要求1所述的方法，其特征在于，在获取所述图像样本的图像特征向量之后，进一步包括：将所述图像特征向量进行降维处理，得到降维后的图像特征向量；所述通过递归解码神经网络，对所述图像特征向量进行解码，得到用于描述所述图像样本的语句，包括：将所述降维后的图像特征向量输入到所述递归解码神经网络，所述递归解码神经网络对所述降维后的图像特征向量进行解码，得到所述用于描述所述图像样本的语句。3.根据权利要求1所述的方法，其特征在于，所述通过递归解码神经网络，对所述图像特征向量进行解码，得到用于描述所述图像样本的语句包括：将所述图像特征向量输入到所述递归解码神经网络，得到输出的n个概率分布，其中，n表示所述解码得到的语句的长度；对于每个概率分布，分别在单词表中选择所述概率分布中最大概率值对应的单词，组成用于描述所述图像样本的语句。4.根据权利要求1所述的方法，其特征在于，确定所述解码得到的语句与所述图像样本之间的匹配度包括：根据物体检测模型对所述图像样本的检测结果，确定所述图像样本中包含的各物体以及所述各物体对应的权重；将解码得到的语句中包含的各个单词，与所述图像样本中包含的所述各物体进行匹配操作，并根据所述匹配结果以及所述各物体对应的权重，确定所述匹配度。5.根据权利要求1所述的方法，其特征在于，所述确定所述解码得到的语句的通顺度包括：将所述解码得到的语句输入递归判别神经网络，根据所述递归判别神经网络各个时刻的第一输出，确定所述解码得到的语句的通顺度。6.根据权利要求5所述的方法，其特征在于，所述根据所述递归判别神经网络各个时刻的输出，确定所述解码得到的语句的通顺度包括：根据以下公式确定所述通顺度：其中，radv代表所述通顺度，qt代表所述递归判别神经网络在t时刻的输出，n代表所述解码得到的语句的长度。7.根据权利要求5所述的方法，其特征在于，进一步包括：将语句样本输入到所述递归判别神经网络，获取所述递归判别神经网络各个时刻的第二输出；根据所述递归判别神经网络各个时刻的第一输出和所述第二输出，对所述递归判别神经网络进行调整。8.根据权利要求7所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：冯洋，马林，刘威，罗杰波，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人