基于深度学习的图像意境挖掘与意境转换中国古诗的方法技术

技术编号:37605311 阅读:32 留言:0更新日期:2023-05-18 11:57
本发明专利技术提供了一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;将所述目标图片输入至预训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;本发明专利技术的基于CNN的图像特征提取器提取静态图像在物体、场景和情感三个方面的特征向量,并与位置编码相加,作为跨模态诗歌生成器编码器的输入,将预训练单模态语言模型的模型参数导入到跨模态诗歌生成器的解码器中学习语法信息,以提升跨模态诗歌生成器的生成质量;最后在跨模态图像

【技术实现步骤摘要】
基于深度学习的图像意境挖掘与意境转换中国古诗的方法


[0001]本专利技术属于深度学习识别与生成
,具体涉及一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法。

技术介绍

[0002]中国古诗是中华传统文化中的瑰宝,历史悠久,可以追溯至两千余年前的《诗经》。作为古代劳动人民记录事件、抒发情感的主要载体,中国古诗在独特的历史文化背景下形成了形神兼备、情景交融的美学追求。《关于实施中华优秀传统文化传承发展工程的意见》中指出,传承中华人文精神是中华优秀传统文化传承发展工程的主要内容之一。因此,推广普及古诗文化有着重要的现实意义。随着人工智能技术的不断发展,其在各个领域的应用也如过江之鲫,但跨模态进行图像生成古诗的相关研究尚且较少,而单模态的古诗生成方法也存在着主题漂移、一致性差、灵活性差、自学习能力差以及没有自动评价体系等问题。如何从图像中提取图像意境信息,并根据意境生成质量更高的中国古诗,是当前研究中的重要难点。
[0003]现有的单模态古诗生成方法包括传统的方法与基于深度学习的方法。传统的方法包括基于模板的方法、基于模式的方法、基于实例推理的方法、基于遗传算法的方法、基于摘要生成的方法和基于统计机器翻译的方法等。基于深度学习的方法包括基于RNN等序列模型生成古诗。
[0004]现有的跨模态图像生成古诗方法包括两种,第一种是基于人工收集图像

古诗配对数据集,通过模版匹配的方法根据图像检索古诗;第二种主要是从图像中提取关键词,再以提取到的关键词作为现有的单模态古诗生成方法的输入信息,该技术方法的主要步骤如下:
[0005]1)使用现有的古诗数据集,收集与之匹配的图片资源,组成配对数据集;
[0006]2)使用CNN网络提取图像中的主要物体,作为生成古诗的关键词;
[0007]3)使用传统古诗生成方法或RNN模型及其变体LSTM模型作为古诗生成器,将上一步得到的关键词作为输入信息,使用配对数据集进行训练;
[0008]4)使用训练好的图像

古诗生成器为图像生成古诗,并在BLEU等自然语言处理中常用的指标上进行评价。
[0009]现有技术存在以下问题:
[0010]1)人工收集图像

古诗配对数据集没有统一的匹配标准,存在主观性,且耗时长,工作量大,难以形成规模较大的数据集;
[0011]2)从图片中生成古诗比从首句或关键词中生成古诗更具有挑战性,图像中包含着丰富的视觉信息,如果仅仅采用识别主要景物作为识别关键词的方式,将会丢失大量的信息;
[0012]3)传统的古诗生成方法,如基于模板的方法、基于模式的方法、基于实例推理的方法、基于遗传算法的方法、基于摘要生成的方法和基于统计机器翻译的方法等,都非常依赖
于模板或数据集,没有很强的自学习能力,上下文缺乏联系性,也很难符合基本语法;基于RNN模型生成古诗,相较于传统方法更加灵活,且摆脱了对人工模板及规则的依赖。但是其也存在一定的问题,受到RNN模型的梯度消失和梯度爆炸现象的限制,随着生成古诗长度的增加,后文与前文的关联会越发不紧密,存在主题漂移的问题;
[0013]4)BLEU等指标最初是为了评价机器翻译的结果而专利技术的。但是,古诗生成任务并不等同于机器翻译任务,对于一副图像可能存在多种角度的不同解读,两个完全不同的词语也可能表达相同的意思,例如“翠微”和“青山”都指绿色的山,故BLEU值在古诗生成问题上作为自动评估标准并不合适;
[0014]5)缺少更具可交互性、趣味性和美观性的应用形式,让普通人直接使用训练好的模型存在一定的编程门槛。

技术实现思路

[0015]为了解决现有技术中存在的上述问题,本专利技术提供一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法。本专利技术要解决的技术问题通过以下技术方案实现:
[0016]本专利技术提供了一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法包括:
[0017]步骤1,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;
[0018]步骤2,将所述目标图片输入至经过训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;
[0019]其中,预训练的跨模态诗歌生成器的训练过程如下:
[0020](1)从开源数据库获取开源古诗数据集,并进行关键词预处理得到筛选后的高频关键词;其中,所述开源古诗数据集包括古诗的相关信息以及每首古诗对应的多个关键词;(2)将每首古诗对应的多个关键词与所述高频关键词进行匹配,如仅有一个关键词匹配不上,则保留古诗的相关信息以及匹配上的关键词,以获得待配对数据集;(3)将待配对数据集中同一首古诗的关键词进行串联,作为检索关键词,并根据所述检索关键词从网络获取与古诗配对的多张初始图片;(4)对所述初始匹配图片按照古诗的相关信息进行筛选,得到每一首古诗按照关联度配对的图片,并将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像

古诗配对数据集;(5)提取所述图像

古诗配对数据集多维度的特征向量,并重塑为特征序列,将特征序列作为跨模态诗歌生成器的输入,将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的预训练过程。
[0021]本专利技术具备以下至少一点有益效果:
[0022]1、使用多个CNN网络挖掘不同方面的作诗线索,由于根据图片内容写诗必须先理解图片,而本专利技术使用VGGNet、Place205

VGGNet、DCAN三个网络分别提取图片在物体、场景和情感等多个方面的特征向量,所保留的信息更为全面。
[0023]2、使用Transformer模型作为诗歌的文本生成器,在生成诗歌的过程中,机器不仅需要学习诗歌语言方面的诗意性,格律方面的结构特征,还需要考虑其主题上的一致性,避免发生主题漂移现象。本专利技术所使用的Transformer模型作为当前NLP领域多个子问题上效
果最好的模型,在图像生成诗歌问题上也能取得比前人研究更好的效果。
[0024]3、本专利技术提出了文本相似度作为诗歌生成效果的自动评价指标。由于汉语是一种高语境语言,原义差别极大的两个词在特殊语境下也可能具有相同的引申义。因此机器翻译或自然语言处理问题中常用的评价指标,如BLEU,并不适用于中国古诗词生成。本专利技术使用在诗歌语料数据集上训练的BERT

CCPoem模型来生成整首诗歌的特征向量,将两个诗歌向量之间的余弦相似度作为比较诗歌生成效果的自动评价指标,更具合理性。
[0025]4、本专利技术提出的图像

古诗配对数据集的收集方法,能够大大节约收集数据集的时间成本,批量收集数据,扩大数据集的规模。
[0026]以下将结合附图及实施例对本专利技术做进一步详细说明。
附图说明
[0027]图1是本专利技术提供的一种基于深度学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,包括:步骤1,接收用户生成古诗的用户任务,并从用户任务中提取用户提交的目标图片;步骤2,将所述目标图片输入至经过训练的跨模态诗歌生成器中,为用户所提交的图像生成对应的古诗;其中,预训练的跨模态诗歌生成器的训练过程如下:(1)从开源数据库获取开源古诗数据集,并进行关键词预处理得到筛选后的高频关键词;其中,所述开源古诗数据集包括古诗的相关信息以及每首古诗对应的多个关键词;(2)将每首古诗对应的多个关键词与所述高频关键词进行匹配,如仅有一个关键词匹配不上,则保留古诗的相关信息以及匹配上的关键词,以获得待配对数据集;(3)将待配对数据集中同一首古诗的关键词进行串联,作为检索关键词,并根据所述检索关键词从网络获取与古诗配对的多张初始图片;(4)对所述初始匹配图片按照古诗的相关信息进行筛选,得到每一首古诗按照关联度配对的图片,并将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像

古诗配对数据集;(5)提取所述图像

古诗配对数据集多维度的特征向量,并重塑为特征序列,将特征序列作为跨模态诗歌生成器的输入,将预训练单模态语言模型的模型参数导入预设的跨模态诗歌生成器中,进而对所述跨模态诗歌生成器进行微调训练,完成跨模态诗歌生成器的预训练过程。2.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(1)包括:(11),从开源数据库获取开源古诗数据集;(12),统计所述开源古诗数据集中的每个关键词的频率,并按照比例选择高频关键词;(13),将所述开源古诗数据集中生僻的关键词替换为语义相同的关键词;(14),删除所述开源古诗数据集中抽象的高频关键词,获得筛选后的高频关键词。3.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(3)包括:(31),将待配对数据集中同一首古诗的关键词进行串联,将串联后的关键词作为检索关键词;(32),根据所述检索关键词,利用爬虫技术从网络公开的图像数据库中爬取与古诗配对的多张初始图片。4.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(4)包括:(41),对所述初始匹配图片按照古诗的相关信息进行人工筛选,得到每一首古诗按照关联度配对的图片;(42),将每首古诗以及配对的图片作为一个样本数据,将所有样本数据组成图像

古诗配对数据集。5.根据权利要求1所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(4)中的三个特征提取网络通过如下步骤实现:a,分别获取Imagent

1k数据集、Place205数据集以及Sentibank数据集;b,分别在Imagent

1k数据集上训练预设的VGG

16网络、在Place205数据集上训练预设的Place205

VGGNet,在Sentibank数据集上训练预设的DCAN网络,得到三个特征提取网络。
6.根据权利要求5所述的基于深度学习的图像意境挖掘与意境转换中国古诗的方法,其特征在于,(5)包括:(51),利用三个特征提取网络分别提取每个样本数据的特征向量;(52),同一样本数据的三个特征向量串联,将串联后的特征向量重塑为一个特征序列;(53),计算每个样本数据的位置编码,并将位置...

【专利技术属性】
技术研发人员:高大化董宇波李雨嫣邱添贺昱鲁永红
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1