【技术实现步骤摘要】
本专利技术涉及计算机视觉与自然语言处理交叉,具体涉及一种融合多模态感知与文化认知的时序图像叙事生成方法。
技术介绍
1、随着人工智能和计算机视觉技术的进步,现有的故事生成技术已逐步融入了多模态学习的框架。诸如clip(contrastive language-image pre-training)模型,利用大规模的图像和文本数据进行多模态学习,已经能够在一定程度上理解图像和文本之间的关联,进而生成相关的叙事内容。此外,transformer架构也被广泛应用于生成任务,尤其是在长文本生成和图像描述方面,已取得了一定的突破。通过这些先进技术,ai在情节生成、角色发展以及图像创作中的表现已有了显著提高。在这些技术的支持下,基于历史、文化、艺术作品生成相关故事已经成为可能。
2、尽管现有技术在多模态生成任务上取得了一定的进展,但在处理具有深厚历史文化背景的图像时,仍然存在诸多挑战。首先,现有的生成模型通常缺乏对特定历史背景、文化符号及社会语境的深入理解,这导致生成的故事情节往往忽略了时代一致性与文化特征。其次,尽管有些模型能够进行多
...【技术保护点】
1.一种面向中国古代时序图像的视觉叙事生成方法,包括以下步骤:
2.根据权利要求1所述的一种面向中国古代时序图像的视觉叙事生成方法,其特征在于:CLIP-ct模型的纹饰语义层表示如下:
3.根据权利要求1所述的面向中国古代时序图像的视觉叙事生成方法,其特征在于:步骤3中,通过知识子图获取知识图谱嵌入hkg的过程如下:
4.根据权利要求3所述的面向中国古代时序图像的视觉叙事生成方法,其特征在于:所述步骤3中,对视觉特征和知识图谱嵌入进行融合,公式如下:
5.根据权利要求1所述的面向中国古代时序图像的视觉叙事生成方法,其特征
...【技术特征摘要】
1.一种面向中国古代时序图像的视觉叙事生成方法,包括以下步骤:
2.根据权利要求1所述的一种面向中国古代时序图像的视觉叙事生成方法,其特征在于:clip-ct模型的纹饰语义层表示如下:
3.根据权利要求1所述的面向中国古代时序图像的视觉叙事生成方法,其特征在于:步骤3中,通过知识子图获取知识图谱嵌入hkg的过程如下:
4.根据权利要求3所述的面向中国古代时序图像的视觉叙事生成方法,其特征在于:所述步骤3中,对视觉特征和知识图谱嵌入进行融合,公式如下:
5.根据权利要求1所述的面向中国古代时序图像的视觉叙事生成方法,其特征在于:所述步骤4中,候选叙事生成是通过transformer解码器生成概率最高的前k个候选情节片段{s1,s2,...,sk},解码概率为:
6.根据权利要求1所述的面向中国古代时序图像的视觉叙事生成方法,其特征在于:所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。