一种基于手绘图序列的故事生成方法、存储介质技术

技术编号：35527757 阅读：14 留言：0更新日期：2022-11-09 14:50

本发明专利技术提供一种基于手绘图序列的故事生成方法、存储介质，方法包括：预设包括多个模板和多个学习目标的多任务训练模型；获取自然场景图像数据集对应的手绘图数据集；依据多个学习目标，加载包括随机采集的自然场景图像序列及其对应的手绘图序列和事实性描述序列，以及从故事语料库中随机采集得到的一个故事的训练数据集；依据各个学习目标，分别从训练数据集中选取所需的训练数据，使用相应的模板进行多任务训练，直至收敛，得到故事生成模型；输入一手绘图序列至故事生成模型，输出与其相对应的故事。本发明专利技术能够有效地缓解现有手绘图序列故事生成技术对监督数据的依赖，且具有易于实现、具有可控性以及应用广泛等特点。具有可控性以及应用广泛等特点。具有可控性以及应用广泛等特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于手绘图序列的故事生成方法、存储介质

[0001]本专利技术涉及人工智能
，特别涉及一种基于手绘图序列的故事生成方法、存储介质。

技术介绍

[0002]基于手绘图序列生成故事是跨视觉和语言模态的重要任务之一，其旨在根据给定的手绘图序列自动地生成故事。目前大多数方法都是关注于生成自然场景图像的事实性描述，即图像字幕任务。这些方法都是基于编码器
‑
解码器架构，即使用编码器对图像进行编码得到深度的视觉特征，再使用解码器把该视觉特征解码为自然语言。为了能够生成其他风格的描述，一些方法改进了解码器，将风格整合到解码过程中。但是这些方法十分依赖于配对的图像和风格化字幕数据，而标注这种配对的数据需要高昂的费用。因为获取这些配对的数据的成本很高，所以一些方法提出一些规则化的方法来摆脱配对数据的限制。但是这些方法仍然是依赖于成对的语义术语和风格化的字幕数据。为了摆脱标注数据的限制，无监督图像字幕方法可以在没有任何配对图像字幕数据的情况下实现了图像到字幕的映射。然而，无监督方法的性能仍然不能令人满意。此外，目前大多数现有的图像字幕模型只专注于描述自然场景图像，但是图像字幕技术在儿童教育和绘画治疗中应用时，需要理解一些人类的手绘图，而目前没有任何配对的手绘图和故事数据，且数据获取成本很高。
[0003]因此，针对以上的不足，本专利技术提供了一种基于手绘图序列的故事生成方法、存储介质，以求解决上述技术问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是：本专利技术提供一种基于...

【技术保护点】

【技术特征摘要】
1.一种基于手绘图序列的故事生成方法，其特征在于，包括：S1：预设包括Matching模板、Caption模板、Story模板以及多个学习目标的多任务训练模型；S2：依据自然场景图像数据集，获取对应的手绘图数据集；S3：依据所述多个学习目标，加载包括自然场景图像数据集中随机采集得到的自然场景图像序列、所述自然场景图像序列对应的手绘图序列和事实性描述序列，以及从故事语料库中随机采集得到的一个故事的训练数据集；S4：依据各个学习目标，分别从所述训练数据集中选取所需的训练数据，使用相应的模板进行多任务训练；返回执行所述S3步骤，直至所述多任务训练模型收敛，得到故事生成模型；S5：输入一手绘图序列至所述故事生成模型，输出与其相对应的故事。2.如权利要求1所述的一种基于手绘图序列的故事生成方法，其特征在于，所述多个学习目标包括：第一学习目标：自然场景图像与手绘图像的匹配；第二学习目标：事实性描述序列重建；第三学习目标：故事重建；第四学习目标：依据自然场景图像序列生成对应的事实性描述；第五学习目标：依据手绘图序列生成对应的事实性描述。第六个学习目标：鉴别器区分原本的故事和生成的故事；第七个学习目标：依据手绘图序列生成故事。3.如权利要求2所述的一种基于手绘图序列的故事生成方法，其特征在于，所述S4步骤中依据第一学习目标，从训练数据集中选取所需的训练数据，使用相应的模板进行训练，包括：依据所述第一学习目标，从所述训练数据集中选取自然场景图像序列及其对应的手绘图序列；分别提取所述自然场景图像序列对应的自然场景图像特征序列，以及所述手绘图序列对应的手绘图特征序列；将所述自然场景图像特征序列和所述手绘图特征序列组合作为训练正样本，将所述自然场景图像特征序列和从手绘图数据集中随机采集的随机手绘图序列对应的随机手绘图特征序列作为训练负样本，使用Matching模板进行训练；其中，所述手绘图序列与所述随机手绘图序列不重叠。4.如权利要求2所述的一种基于手绘图序列的故事生成方法，其特征在于，所述S4步骤中依据第二学习目标，从所述训练数据集中选取所需的训练数据，使用相应的模板进行训练，包括：依据所述第二学习目标，从所述训练数据集中选取事实性描述序列，对其进行随机Mask处理后组合输入到所述多任务训练模型中，使用Caption模板预测被Mask部分内容；所述S4步骤中依据第三学习目标，从所述训练数据集中选取所需的训练数据，使用相应的模板进行训练，包括：依据所述第三学习目标，从所述训练数据集中选取故事；
对所选取的故事进行随机Mask处理后输入到所述多任务训练模型中，使用Story模板预测被Mask部分内容。5.如权利要求2所述的一种基于手绘图序列的故事生成方法，其特征在于，所述S4步骤中依据第四学习目...

【专利技术属性】
技术研发人员：周宇成，
申请(专利权)人：悉科大创新研究深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人