【技术实现步骤摘要】
本专利技术属于图像数据处理领域,具体涉及一种自动获取用于多模态图像生成模型的专业类数据集的方法。
技术介绍
1、近年随着多模态大模型技术的突破与爆发式发展,aigc(利用多模态大模型进行内容创作)时代已逐步来临。aigc技术已经对诸多与文字、图像等强相关的领域(如文字编辑、场景美术、海报设计等)产生重大影响,彻底改变了从业者的生产方式。尤其是以扩散模型(diffusion model)为基础的多模态图像生成模型,在各个专业性较强、过程复杂、数字化程度较低,但同时与图像强相关的专业中(如建筑工程行业方案设计阶段的建筑设计、室内设计、景观设计等),有着重要的应用潜力。
2、目前,虽已出现多个以开源稳定扩散模型(stable diffusion model)为基础,微调训练而成的,专门解决某些专业类任务(如服装摄影、建筑设计、人物原画等)的图像生成模型。但这些微调训练后的模型普遍存在着相同问题:如模型泛化能力不强,无法解决生产过程中专业性较强的细分任务(如针对建筑行业方案设计阶段微调训练的建筑图像生成模型,只能生成住宅、商业办公楼
...【技术保护点】
1.一种自动获取用于多模态图像生成模型的专业类数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述S1包括:
3.根据权利要求1所述的方法,其特征在于,所述S2中,利用多模态模型,对所述第二图像数据集中的图像进行识别和归类后,使用图像识别算法检查多模态模型的分类结果,若存在可能的分类错误,则调整多模态模型的分类标准,并对可能分类错误的图像重新通过多模态模型进行分类,以调整分类结果,得到所述多个类别的第一图像子数据集。
4.根据权利要求1所述的方法,其特征在于,所述S3中问答交互,包括:
5.根
...【技术特征摘要】
1.一种自动获取用于多模态图像生成模型的专业类数据集的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述s1包括:
3.根据权利要求1所述的方法,其特征在于,所述s2中,利用多模态模型,对所述第二图像数据集中的图像进行识别和归类后,使用图像识别算法检查多模态模型的分类结果,若存在可能的分类错误,则调整多模态模型的分类标准,并对可能分类错误的图像重新通过多模态模型进行分类,以调整分类结果,得到所述多个类别的第一图像子数据集。
4.根据权利要求1所述的方法,其特征在于,所述s3中问答交互,包括:
5.根据权利要求1所述的方法,其特征在于,所述s4中,得到各图像对应的标注公式后,通过文本识别算法检查特征标注结果,并对标注不准确的图像重新进行...
【专利技术属性】
技术研发人员:贺成,吴平凡,孙昱,李星亮,龚灵力,陈梓绵,胡德森,王迅,张沁,
申请(专利权)人:湖南省建筑设计院集团股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。