自动获取用于多模态图像生成模型的专业类数据集的方法技术

技术编号：43304827 阅读：30 留言：0更新日期：2024-11-12 16:20

本发明专利技术公开了一种自动获取用于多模态图像生成模型的专业类数据集的方法，包括：获得该专业的原始图像数据集；按照分辨率和长宽比例要求对原始图像数据集中的图像进行筛选和调整，得到第二图像数据集；对第二图像数据集中的图像进行分类，得到所需类别的第一图像子数据集；将该专业的结构化描述文档输入第一多模态大语言模型，对所需类别的第一图像子数据集中的图像进行质量评价，剔除不符合图像质量评价标准的图像，得到第二图像子数据集；将改专业的标注公式范例输入第二多模态大语言模型，对第二图像子数据集中的图像进行特征标注，得到包含图像及其对应标注公式的图文对子数据集。本申请可以自动生成用于多模态图像生成模型的各种专业类数据集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于图像数据处理领域，具体涉及一种自动获取用于多模态图像生成模型的专业类数据集的方法。

技术介绍

1、近年随着多模态大模型技术的突破与爆发式发展，aigc(利用多模态大模型进行内容创作)时代已逐步来临。aigc技术已经对诸多与文字、图像等强相关的领域(如文字编辑、场景美术、海报设计等)产生重大影响，彻底改变了从业者的生产方式。尤其是以扩散模型(diffusion model)为基础的多模态图像生成模型，在各个专业性较强、过程复杂、数字化程度较低，但同时与图像强相关的专业中(如建筑工程行业方案设计阶段的建筑设计、室内设计、景观设计等)，有着重要的应用潜力。

2、目前，虽已出现多个以开源稳定扩散模型(stable diffusion model)为基础，微调训练而成的，专门解决某些专业类任务(如服装摄影、建筑设计、人物原画等)的图像生成模型。但这些微调训练后的模型普遍存在着相同问题：如模型泛化能力不强，无法解决生产过程中专业性较强的细分任务(如针对建筑行业方案设计阶段微调训练的建筑图像生成模型，只能生成住宅、商业办公楼...

【技术保护点】

1.一种自动获取用于多模态图像生成模型的专业类数据集的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述S1包括：

3.根据权利要求1所述的方法，其特征在于，所述S2中，利用多模态模型，对所述第二图像数据集中的图像进行识别和归类后，使用图像识别算法检查多模态模型的分类结果，若存在可能的分类错误，则调整多模态模型的分类标准，并对可能分类错误的图像重新通过多模态模型进行分类，以调整分类结果，得到所述多个类别的第一图像子数据集。

4.根据权利要求1所述的方法，其特征在于，所述S3中问答交互，包括：

5.根据权利要求1所述的方...

【技术特征摘要】

1.一种自动获取用于多模态图像生成模型的专业类数据集的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述s1包括：

3.根据权利要求1所述的方法，其特征在于，所述s2中，利用多模态模型，对所述第二图像数据集中的图像进行识别和归类后，使用图像识别算法检查多模态模型的分类结果，若存在可能的分类错误，则调整多模态模型的分类标准，并对可能分类错误的图像重新通过多模态模型进行分类，以调整分类结果，得到所述多个类别的第一图像子数据集。

4.根据权利要求1所述的方法，其特征在于，所述s3中问答交互，包括：

5.根据权利要求1所述的方法，其特征在于，所述s4中，得到各图像对应的标注公式后，通过文本识别算法检查特征标注结果，并对标注不准确的图像重新进行...

【专利技术属性】
技术研发人员：贺成，吴平凡，孙昱，李星亮，龚灵力，陈梓绵，胡德森，王迅，张沁，
申请(专利权)人：湖南省建筑设计院集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人