当前位置: 首页 > 专利查询>兰州大学专利>正文

基于扩散模型的长文生图算法及系统技术方案

技术编号:46630687 阅读:1 留言:0更新日期:2025-10-14 21:29
本发明专利技术涉及基于扩散模型的长文生图技术领域,并具体公开了一种基于扩散模型的长文生图算法及系统,包括如下步骤:使用中文预训练语言模型对中文长文本进行摘要提取,生成关键信息摘要,通过翻译模型将中文摘要翻译为英文,形成标准化文本输入,对原始数据集进行清洗、去重及格式标准化处理,构建包含长文本、英文摘要及对应图像的训练数据集;使用中文预训练语言模型对中文长文本进行摘要提取,用其处理每篇文章,提取出关键信息和核心内容。该基于扩散模型的长文生图算法及系统,与传统的SD模型相比,改进后的DMFT‑SD模型不仅生成了更贴合文章内容的真实场景,还能够精准呈现文本细节与历史文化背景,提升了图像与文本的一致性。

【技术实现步骤摘要】

本专利技术涉及基于扩散模型的长文生图,具体为一种基于扩散模型的长文生图算法及系统


技术介绍

1、当前,文生图技术已成为计算机视觉与自然语言处理交叉领域的重要研究方向,然而,现有的主流文生图模型仍然存在语义理解能力不足、图像布局可控性较弱、缺乏针对中文长文本的优化等问题,使其在在线阅读平台等应用场景中存在不足之处:

2、(1)文本与图像匹配的语义一致性不足:虽然现有的扩散模型在生成高质量图像方面取得了显著进展,但它们在理解和表达复杂文本语义方面仍然存在不足,特别是对于中文长文本描述,很难保证图像能够精准地表现文本的核心内容。

3、(2)缺乏对图像布局的精细控制:大多数文生图模型基于全局文本条件生成图像,缺少布局感知机制,难以控制图像中不同对象的位置和比例。这就导致了生成的图像可能缺乏合理的空间分布,影响了图像的可读性和视觉质量。

4、(3)适用于中文长文本的优化不足:现有的文生图模型主要针对英文数据进行训练,对于中文长文本的处理较少,难以准确捕捉汉语特有的修辞、成语等复杂语言特性,使得中文文本的配图质量不稳定。

<本文档来自技高网...

【技术保护点】

1.基于扩散模型的长文生图算法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于扩散模型的长文生图算法,其特征在于:使用动态掩码模块在扩散过程中,自适应地生成一个注意力掩码Mij,用于指导模型在计算交叉注意力时,将注意力集中于文本描述的关键区域,而忽略非重要区域,从而提高模型的效率和图像质量,接着,利用跨模态注意力机制计算文本与图像特征之间的语义注意力,分别计算图像特征、文本特征矩阵;

3.根据权利要求1所述的基于扩散模型的长文生图算法,其特征在于:通过数据集对Stable Diffusion微调后的模型,以及对加入动态掩码之后的DMFT-SD模型进行训练...

【技术特征摘要】

1.基于扩散模型的长文生图算法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于扩散模型的长文生图算法,其特征在于:使用动态掩码模块在扩散过程中,自适应地生成一个注意力掩码mij,用于指导模型在计算交叉注意力时,将注意力集中于文本描述的关键区域,而忽略非重要区域,从而提高模型的效率和图像质量,接着,利用跨模态注意力机制计算文本与图像特征之间的语义注意力,分别计算图像特征、文本特征矩阵;

3.根据权利要求1所述的基于扩散模型的长文生图算法,其特征在于:通过数据集对stable diffusion微调后的模型,以及对加入动态掩码之...

【专利技术属性】
技术研发人员:苏伟潘子安柳博望
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1