一种基于多轮问答的AI图片生成方法技术

技术编号:46599132 阅读:1 留言:0更新日期:2025-10-10 21:31
本发明专利技术公开了一种基于多轮问答的AI图片生成方法,包括:响应于用户自然语言输入,通过大语言模型,得到需求描述,以生成初始图片,其中,需求描述至少包括场景、对象、颜色、风格中的任意之一;根据用户对初始图像的修改语言,得到更新的需求描述,根据需求描述及更新前的需求描述对比,以进行图像更新;进行多次修改迭代,响应于用户确认,生成最终的图片。本发明专利技术通过需求对比与迭代生成,解决了用户需求表达不完整、反馈机制缺失及生成结果偏差的核心问题。通过多轮交互逐步补全用户需求,避免信息遗漏;基于差异对比仅调整变更部分,减少冗余计算,高效图像更新;通过多次迭代修正生成模型输入,确保最终图像符合用户预期。

【技术实现步骤摘要】

本专利技术属于ai图片生成,具体涉及一种基于多轮问答的ai图片生成方法。


技术介绍

1、随着深度学习技术的发展,基于生成对抗网络(gan)、扩散模型(diffusionmodel)等图像生成技术已广泛应用于艺术创作、设计辅助等领域。

2、然而,传统图像生成方法通常依赖用户输入的静态文本描述(如“日落海滩”),但用户往往难以一次性提供完整的场景、对象、颜色、风格等关键特征描述,导致生成图像与实际需求存在偏差。大语言模型(llm)虽能理解自然语言,但其输出的特征描述缺乏结构化约束,易遗漏关键细节(如对象位置、色彩搭配),无法直接驱动图像生成模型。

3、而且,现有生成模型(如gan或扩散模型)在生成图像后,用户若需修改,需重新输入完整需求描述,系统无法基于初始描述与修改反馈进行增量式调整。

4、图像生成模型对复杂语义需求的建模能力有限,尤其在多轮交互中,用户需求的动态调整可能导致生成结果的不一致(如颜色冲突、对象位置错位),已使生成结果与用户期望产生偏差。

5、综上来说,现有图像生成技术存在用户需求表达不完整、反馈本文档来自技高网...

【技术保护点】

1.一种基于多轮问答的AI图片生成方法,其特征在于,包括:

2.根据权利要求1所述的基于多轮问答的AI图片生成方法,其特征在于,得到需求描述,具体为:

3.根据权利要求2所述的基于多轮问答的AI图片生成方法,其特征在于,得到需求描述,还包括:

4.根据权利要求3所述的基于多轮问答的AI图片生成方法,其特征在于,生成初始图片,具体为:

5.根据权利要求3所述的基于多轮问答的AI图片生成方法,其特征在于,生成初始图片,具体为:

6.根据权利要求1所述的基于多轮问答的AI图片生成方法,其特征在于,根据所述需求描述及更新前的需求描述对比...

【技术特征摘要】

1.一种基于多轮问答的ai图片生成方法,其特征在于,包括:

2.根据权利要求1所述的基于多轮问答的ai图片生成方法,其特征在于,得到需求描述,具体为:

3.根据权利要求2所述的基于多轮问答的ai图片生成方法,其特征在于,得到需求描述,还包括:

4.根据权利要求3所述的基于多轮问答的ai图片生成方法,其特征在于,生成初始图片,具体为:

5.根据权利要求3所述的基于多轮问答的ai图片生成方法,其特征在于,生成初始图片,具体为:

6.根据权利要求1所述的基于多轮问答的ai图片生成方法,其特征在于,根据所述需...

【专利技术属性】
技术研发人员:殷鑫魏继鑫辛廷凯肖真真王帅帅
申请(专利权)人:山东浪潮数字服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1