【技术实现步骤摘要】
本专利技术涉及图像生成领域,尤其涉及一种基于稳定扩散模型的图像分层生成系统、方法及装置。
技术介绍
1、扩散模型在图像生成方面取得了巨大的进展,可以根据给定的文本条件生成具有前景和背景的图像。目前扩散模型生成的图像质量在图像中文字、人物手部细节等方面仍效果较差,需要后期对图像的不同物体,以及背景进行单独的编辑,以达成更完美的细节。在实现图像精细编辑的过程中,需要对图像按照物体遮挡顺序及背景,进行分层操作,以便对图像进行编辑。然而,传统的人工图像分层方法,存在工作量大、效率低下等缺陷。
2、近年来,随着人工智能技术的发展,出现了基于深度学习的分割算法,通过识别图像中各物体的遮罩后进行抠图,可直接应用于扩散模型所生成的图像中,用于图像分层。然而,当前基于深度学习的分割算法只能识别出物理未遮挡部分,无法识别物体的前后遮挡关系,同时只能识别有限物体,对用户给定的特定概念无法理解等问题,导致分层结果存在分层出被遮挡物体不完整,物体间前后关系无法识别,无法分层特定概念等问题。
技术实现思路
【技术保护点】
1.一种基于稳定扩散模型的图像分层生成系统,其特征在于,该系统包括用户输入模块、粗遮罩提取模块和图像分层重绘模块;
2.根据权利要求1所述的一种基于稳定扩散模型的图像分层生成系统,其特征在于,用户输入模块接收用户提供的多图层图像的文本描述,输入到具有实体识别能力的自然语言模型中,得到文本描述所包含的所有物体及背景实体词汇,通过查找每个识别出的实体在句子中的位置,得到需要分层物体及背景在文本描述中的对应位置。
3.根据权利要求1所述的一种基于稳定扩散模型的图像分层生成系统,其特征在于,粗遮罩提取模块中每个需要分层物体的粗遮罩获得方式为:记录稳定扩
...【技术特征摘要】
1.一种基于稳定扩散模型的图像分层生成系统,其特征在于,该系统包括用户输入模块、粗遮罩提取模块和图像分层重绘模块;
2.根据权利要求1所述的一种基于稳定扩散模型的图像分层生成系统,其特征在于,用户输入模块接收用户提供的多图层图像的文本描述,输入到具有实体识别能力的自然语言模型中,得到文本描述所包含的所有物体及背景实体词汇,通过查找每个识别出的实体在句子中的位置,得到需要分层物体及背景在文本描述中的对应位置。
3.根据权利要求1所述的一种基于稳定扩散模型的图像分层生成系统,其特征在于,粗遮罩提取模块中每个需要分层物体的粗遮罩获得方式为:记录稳定扩散模型生成过程中的注意力权重,通过获得每一步去噪过程的稳定扩散模型中交叉注意力网络的输出,并首先缩放到与输出图像同样的大小,后均值化每一步去噪过程的注意力权重,形成输入文本描述与图像中每个区块的注意力权重;提取输入文本描述与图像每个区块的注意力权重中需要分层物体在文本描述中的对应位置的注意力权重,得到每个需要分层物体的粗遮罩。
4.根据权利要求3所述的一种基于稳定扩散模型的图像分层生成系统,其特征在于,获取均值后设置二值化阈值得到粗遮罩,提取粗遮罩的边界框,将边界框及文本描述的图像输入到分割模型中来获得需要分层物体的精细遮罩。
5.根据权利要求3所述的一种基于稳定扩散模型的图像分层生...
【专利技术属性】
技术研发人员:汤斯亮,叶文韬,章冬平,张文桥,庄越挺,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。