一种图像中文字幕生成方法技术

技术编号:17705821 阅读:86 留言:0更新日期:2018-04-14 18:31
本发明专利技术公开了一种图像中文字幕生成方法,包括以下步骤:步骤一,构建训练集:收集图像并通过人工对图像加上意思相近的中文描述;步骤二,训练卷积神经网络进行图像特征提取,训练完成卷积神经网络后,对步骤一收集的图像进行正向传播运算,得到图像的语义特征;步骤三,对每一句中文描述按语义进行分词,并构造中文字典;步骤四,训练循环神经网络进行中文字幕生成;步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过卷积神经网络、循环神经网络完成其图像字幕生成任务。

【技术实现步骤摘要】
一种图像中文字幕生成方法
本专利技术涉及计算机视觉,机器学习和人工神经网络领域,尤其涉及一种图像中文字幕生成方法。
技术介绍
在人工智能领域,人们的长期目标是开发出一种机器,它不仅能够感知和理解我们周围丰富的视觉世界,而且能够运用自然语言与我们沟通。在计算机视觉领域,目前已经实现了多种不同的任务,例如图像识别、图像定位、图像分割等。这些任务实现的主要步骤包括图像特征提取以及分类器的训练。图像特征提取方法主要有:颜色直方图特征、图像纹理特征、方向梯度直方图(HistogramofOriented,HOG)特征、局部二值模式(LocalBinaryPattern,LBP)特征等,其中颜色直方图和图像纹理特征是图像的全局特征,HOG和LBP是图像的局部特征。分类器一般有SOFTMAX分类器、SVM分类器、神经网络分类器以及集成分类器。这些任务的实现在很大程度上促进了人工智能的发展,但是这些任务都是将图像或者图像的局部划分到事先指定的类别或者离散的标签中。图像字幕生成(ImageCaptionGeneration)是给定一张图像,让机器自动地生成一句自然语言来描述该图像的内容,它本质上是一个从视觉到语言(Visual-to-language)的问题,简单的来说就是我们希望计算机能够根据图像的内容给出能够描述图像内容的句子。图像字幕生成任务不仅需要计算机理解图像中所包含的对象,更重要的是要将这些对象之间的关系通过正确的自然语言表达出来。因此,本领域的技术人员致力于开发一种图像中文字幕生成方法,在初始阶段利用了图像的局部特征信息,并且还建立了图像内容之间的位置关系,将每个单词的语意信息同图像的局部特征联系起来;利用带有注意力机制的神经网络模型进行建模,建立的序列模型在每个时刻都会根据图像特征信息和单词语意信息产生一个注意力变量的分布,该变量分布就表示此时模型所注意图像的位置信息。
技术实现思路
本专利技术的目的在于针对现在大多数计算机视觉任务都是将图像划分到离散的标签中的不足,提出一种基于神经网络的中文图像字幕生成方法,从而克服了图像到语言的障碍。为实现上述目的,本专利技术提出了一种图像中文字幕生成方法,包括以下步骤:步骤一,构建训练集:收集图像并通过人工对图像加上意思相近的中文描述;步骤二,训练卷积神经网络进行图像特征提取,训练完成卷积神经网络后,对步骤一收集的图像进行正向传播运算,得到图像的语义特征;步骤三,对每一句中文描述按语义进行分词,并构造中文字典;步骤四,训练循环神经网络进行中文字幕生成;步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过卷积神经网络、循环神经网络完成其图像字幕生成任务。进一步地,步骤一选用Flickr8k图像字幕数据集。进一步地,步骤二采用16层神经网络,包括卷积、池化、激活等操作,利用卷积神经网络提取图像特征,获得具有语义信息的特征。进一步地,16层神经网络包括13层卷积层和3层全连接层,每一层的激活函数选用Relu函数,并且在最后三层后加上Dropout层。进一步地,步骤二包括数据集,数据集采用ImageNet数据集,并采用Adadelta梯度下降算法作为步骤二的训练算法,并按以下公式进行网络参数的更新:wt+1=wt+Δwt(4)其中,wt代表第t次迭代的参数值,g代表梯度,E[g2]代表梯度g平方的移动平均数,α为计算移动平均数的系数,一般取0.99,η为学习速率取0.0001,ε取一个很小的数防止分母为0。进一步地,步骤四采用加入Dropout的LSTM网络,在不同的时许周期采用随机置0的方法,从而提升模型的泛化能力。进一步地,步骤四对条件概率P(St|I,S0,S1,…,St-1;θ)进行建模,在模型中使用固定长度的隐藏单元输出ht来表达第t时刻的条件概率值,与上一个时刻的隐藏单元ht-1,和该时刻的输入xt有关,因此,隐藏单元输出ht=f(ht-1,xt),其中f为tanh非线性函数;对于初始值h-1则是通过步骤三的卷积神经网络对输入图像I进行特征提取的到,xt则表示在每个时刻t对应的某个词汇向量。对于每幅图像面临中文描述长度不等的问题,本专利技术采用在序号向量的末尾补0来解决。同样训练该网络时。进一步地,训练循环神经网络时,每次迭代的输入选取步骤二得到图像特征以及步骤三生成的字幕序号向量,网络权重更新的方法采用Adadelta梯度下降算法,学习速率被设置为0.0001。技术效果:在初始阶段利用了图像的局部特征信息,并且还建立了图像内容之间的位置关系,将每个单词的语意信息同图像的局部特征联系起来;利用带有注意力机制的神经网络模型进行建模,建立的序列模型在每个时刻都会根据图像特征信息和单词语意信息产生一个注意力变量的分布,该变量分布就表示此时模型所注意图像的位置信息。附图说明图1为本专利技术的一种图像中文字幕生成方法的流程图。图2为本专利技术的一种图像中文字幕生成方法的图像中文字幕数据示例。图3为本专利技术的一种图像中文字幕生成方法的中文字幕分词示例。图4为本专利技术的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。图5为本专利技术的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。图6为本专利技术和传统方法在Flickr8KCN上的CIDEr学习曲线对比图。图7为本专利技术和传统方法在Flickr8K上的CIDEr学习曲线对比图。表1为本专利技术和传统方法在Flickr8kCN数据集上各实验结果对比。具体实施方式本专利技术的具体实施例为标准数据集Flickr8K及其中文版Flickr8KCN。本专利技术提供了一种中文图像字幕生成的方法,通过以下方案来实现。首先,在训练阶段根据实际需求构建训练集,收集尽可能多的图像,并通过人工对每一幅图像加上合适的中文字幕,这个数据集的作用是训练机器,让其学会如何根据这些样本自动地给图像加上中文字幕。接着,通过训练一个多层卷积神经网络来对训练集的图像进行特征提取。紧接着,对每幅图像的中文字幕进行语义上的分词,并根据词汇出现的频率构造字典。最后通过训练一个循环神经网络,对这些中文字幕进行建模,并让其学习如何根据图像特征进行中文字幕生成。在测试或者使用阶段,对于输入的图像,利用训练阶段得到的卷积神经网络来提取特征,并将该特征输入到循环神经网络中得到中文字幕。该模型是一种判别模型,即在给定某个图片I的条件下,使其取得正确描述序列S的概率最大。该过程可以形式化的表达为,其中:θ是该模型待学习的参数;第一个求和是针对训练集中所有的图片I和其正确的描述序列S;第二个求和是对于正确描述序列S中的每个单词St。根据贝叶斯公式,其中第二个求和结果代表着在给定图片I的条件下,得到整个描述序列S的对数联合概率值。如图1所示,本专利技术的一较佳实施例提供了一种图像中文字幕生成方法包括以下几个步骤:步骤一、构建训练集按照实际需求,收集若干图像并通过人工对这些图像加上若干句中文描述。由于模型的局限性,给图像加上的中文描述,要求尽量选择简单并且能够直接表达图像的含义的词汇。本实施例选择了跟日常生活比较贴近的Flickr8k图像字幕数据集,该数据集一共大约有8000多幅图像,其中大多展示的是人类和动物在参与到某项活动中的情景,示例如图2所示。原数据集中每幅图像对应的本文档来自技高网
...
一种图像中文字幕生成方法

【技术保护点】
一种图像中文字幕生成方法,其特征在于,包括以下步骤:步骤一,构建训练集:收集图像并通过人工对所述图像加上意思相近的中文描述;步骤二,训练卷积神经网络进行图像特征提取,训练完成所述卷积神经网络后,对所述步骤一收集的所述图像进行正向传播运算,得到所述图像的语义特征;步骤三,对每一句所述中文描述按语义进行分词,并构造中文字典;步骤四,训练循环神经网络进行中文字幕生成;步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过所述卷积神经网络、所述循环神经网络完成其图像字幕生成任务。

【技术特征摘要】
1.一种图像中文字幕生成方法,其特征在于,包括以下步骤:步骤一,构建训练集:收集图像并通过人工对所述图像加上意思相近的中文描述;步骤二,训练卷积神经网络进行图像特征提取,训练完成所述卷积神经网络后,对所述步骤一收集的所述图像进行正向传播运算,得到所述图像的语义特征;步骤三,对每一句所述中文描述按语义进行分词,并构造中文字典;步骤四,训练循环神经网络进行中文字幕生成;步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过所述卷积神经网络、所述循环神经网络完成其图像字幕生成任务。2.如权利要求1所述的一种图像中文字幕生成方法,其特征在于,所述步骤一选用Flickr8k图像字幕数据集。3.如权利要求1所述的一种图像中文字幕生成方法,其特征在于,所述步骤二采用16层神经网络,包括卷积、池化、激活等操作,利用所述卷积神经网络提取图像特征,获得具有语义信息的特征。4.如权利要求3所述的一种图像中文字幕生成方法,其特征在于,所述16层神经网络包括13层卷积层和3层全连接层,每一层的激活函数选用Relu函数,并且在最后三层后加上Dropout层。5.如权利要求4所述的一种图像中文字幕生成方法,其特征在于,所述步骤二包括数据集,所述数据集采用ImageNet数据集,并采用Adadelta梯度下降算法作为所述步骤二的训练算法,并按以下公式进行网络参数的更新:

【专利技术属性】
技术研发人员:王斌王剑锋周小平张倩黄继风
申请(专利权)人:上海师范大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1