一种视觉叙事文本生成方法及设备技术

技术编号：40525003 阅读：6 留言：0更新日期：2024-03-01 13:44

本发明专利技术公开了一种视觉叙事文本生成方法及设备，该方法包括步骤：S1：使用构建好的视觉叙事模型提取图像序列中的图像特征；S2：建模所述图像序列间的关系并得到隐状态表示向量；S3：将所述图像特征和隐状态向量表示联合表示为图像序列背景信息；S4：所述视觉叙事模型根据所述图像序列背景信息和图像序列语言信息预测视觉叙事词语，生成视觉叙事文本。本发明专利技术能够提高视觉叙事词语的预测效果，从而使文本的句子之间具有较好的衔接性，能够构成一个流畅的故事，语言上期望生成的句子有更丰富的用词和更好的可读性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视觉叙事的，特别是涉及一种视觉叙事文本生成方法及设备。

技术介绍

1、视觉叙事是生成对应于给定图像序列的一个描述故事。给定图像序列是一个事件的一组照片且具有时间顺序。模型识别图像序列的内容进行分析和综合并生成一个描述图像序列内容的故事文本。一般每一个图像对应故事中的一个句子。

2、基于循环神经网络(rnn，recurrent neural networks)的方法广泛应用于该任务。一些方法首先利用卷积神经网络(cnn，convolutional neural network)提取图像的特征，并利用一个rnn建模各个图像之间的关系并得到考虑到各个图像关系的特征。最后，利用rnn根据所得特征进行解码生成描述文本。

3、现有的技术方案如下：

4、1.reco-rl(一种强化学习的框架)[1]利用cnn提取图像特征，并将图像序列表示的平均值作为图像序列整体信息的表示向量。利用一个长短期记忆网络(lstm，long shortterm memory)充当管理器，建模图像序列的关系，并得到一个表示向量用于指导生成。最后利用工作器lstm生成文本。该工作器以图像特征和管理器的输出特征作为输入。整个模型通过强化学习方法进行训练。该方法的问题是没有考虑到工作器lstm对其中不同信息的关注问题。

5、2.在rnn中采用注意力机制对图像和语言信息分配合理的注意力权重的方法[2]。该方法仅仅考虑了视觉和语言信息的注意力差异，难以区分状态信息的重要性。

6、3.在训练过程中随机将参

7、综上所述，现有的视觉叙事文本生成方法中视觉叙事词语的预测效果较差。

8、参考文献：

9、[1]hu j,cheng y,gan z,et al.what makes a good story？designingcomposite rewards for visual storytelling[c]//proceedings of the aaaiconference on artificial intelligence.2020,34(05):7969-7976.

10、[2]lu j,xiong c,parikh d,et al.knowing when to look:adaptiveattention via a visual sentinel for image captioning[c]//proceedings of theieee conference on computer vision and pattern recognition.2017:375-383.

11、[3]bengio s,vinyals o,jaitly n,et al.scheduled sampling for sequenceprediction with recurrent neural networks[j].advances in neural informationprocessing systems,2015,28.

12、[4]papineni k,roukos s,ward t,et al.bleu:a method for automaticevaluation of machine translation[c]//proceedings of the 40th annual meetingof the association for computational linguistics.2002:311-318.

13、[5]lin c y,och f j.automatic evaluation of machine translationquality using longest common subsequence and skip-bigram statistics[c]//proceedings of the 42nd annual meeting of the association for computationallinguistics(acl-04).2004:605-612.

14、[6]denkowski m,lavie a.meteor universal:language specific translationevaluation for any targe tlanguage[c]//proceedings of the ninth workshop onstatistical machine translation.2014:376-380.

15、[7]vedantam r,lawrence zitnick c,parikh d.cider:consensus-based imagedescription evaluation[c]//proceedings of the ieee conference on computervision and pattern recognition.2015:4566-4575.

16、[8]wang x,chen w,wang y f,et al.no metrics are perfect:adversarialreward learning for visual storytelling[j].arxiv preprint arxiv:1804.09160,2018.

17、[9]huang q,gan z,celikyilmaz a,et al.hierarchically structuredreinforcement learning for topically coherent visual story generation[c]//proceedings of the aaai conference on artificial intelligence.2019,33(01):8465-8472.

18、[10]jung y,kim d,woo s,et al.hide-and-tell:learning to bridge photostreams for visual storytelling[c]//proceedings of the aaai conference onartificial intelligence.2020,34(07):11213-11220.

19、[11]wang r,wei z,li p,et al.storytelling from an image stream usingscene graphs[c]//proceedings of the aaai conference本文档来自技高网...

【技术保护点】

1.一种视觉叙事文本生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的视觉叙事文本生成方法，其特征在于，在步骤S4中，所述图像序列语言信息包括隐状态信息、记忆单元信息和词向量；在预测视觉叙事词语时，对所述图像序列背景信息和所述其他不同信息分配不同的注意力权重，所述注意力权重表达式如下：

3.根据权利要求2所述的视觉叙事文本生成方法，其特征在于，所述视觉叙事模型包括自适应输出门LSTM，所述自适应输出门LSTM的输入为上一步预测的隐状态表示向量、上一步的记忆单元、上一步预测的视觉叙事词语的词向量以及上一步的图像序列背景信息；所述自适应输出门LSTM的输出为输出门向量，所述输出门向量的表达式如下：

4.根据权利要求1至3任一项所述的视觉叙事文本生成方法，其特征在于，还包括使用主动替换采样方法训练所述视觉叙事模型，在所述训练过程中，使用选择网络和选择策略主动选择合适的预测词语作为替换所述预测视觉叙事词语，以替换参考句中的参考词语，所述选择网络用于估计替换每一个词对损失的影响程度。

5.根据权利要求4所述的视觉叙事文本生成方法，

6.根据权利要求5所述的视觉叙事文本生成方法，其特征在于，在步骤A1中，所述第一阶段训练的损失函数表达式如下：

7.根据权利要求6所述的视觉叙事文本生成方法，其特征在于，在步骤A2中，所述第二阶段训练的损失函数表达式如下：

8.根据权利要求7所述的视觉叙事文本生成方法，其特征在于，在步骤A3中，第三阶段训练的损失函数表达式如下：

9.一种视觉叙事文本生成设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的视觉叙事文本生成方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至8中任意一项所述的视觉叙事文本生成方法。

...

【技术特征摘要】

1.一种视觉叙事文本生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的视觉叙事文本生成方法，其特征在于，在步骤s4中，所述图像序列语言信息包括隐状态信息、记忆单元信息和词向量；在预测视觉叙事词语时，对所述图像序列背景信息和所述其他不同信息分配不同的注意力权重，所述注意力权重表达式如下：

3.根据权利要求2所述的视觉叙事文本生成方法，其特征在于，所述视觉叙事模型包括自适应输出门lstm，所述自适应输出门lstm的输入为上一步预测的隐状态表示向量、上一步的记忆单元、上一步预测的视觉叙事词语的词向量以及上一步的图像序列背景信息；所述自适应输出门lstm的输出为输出门向量，所述输出门向量的表达式如下：

4.根据权利要求1至3任一项所述的视觉叙事文本生成方法，其特征在于，还包括使用主动替换采样方法训练所述视觉叙事模型，在所述训练过程中，使用选择网络和选择策略主动选择合适的预测词语作为替换所述预测视觉叙事词语，以替换参考句中的参考词语，所述选择网络用于估计替换每一...

【专利技术属性】
技术研发人员：郑海涛，刘汉卿，曹雪智，王宗宇，江勇，夏树涛，肖喜，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人