一种基于多模态对话语言模型的图像分割方法和系统技术方案

技术编号:39439024 阅读:15 留言:0更新日期:2023-11-19 16:22
本发明专利技术公开了一种基于多模态对话语言模型的图像分割方法和系统。方法包括:训练得到多模态对话语言模型和图像分割神经网络模型;接收用户输入的图像分割需求和待分割图像;将图像分割需求输入到多模态对话语言模型中,利用多模态对话语言模型,将图像分割需求转化为图像分割任务;将待分割图像和图像分割任务输入到图像分割神经网络模型中,根据图像分割任务对待分割图像进行分割。本发明专利技术通过多模态对话语言模型实现语言和图像之间的自然交互,可以同时处理多种模态的输入,将用户的语言需求转化为图像分割的任务;用户不需要具备专业的图像处理技能,只需要通过自然语言的方式向系统提出需求即可,大大降低了使用门槛,提高了使用效率。使用效率。使用效率。

【技术实现步骤摘要】
一种基于多模态对话语言模型的图像分割方法和系统


[0001]本申请涉及图像分割
,特别是涉及一种基于多模态对话语言模型的图像分割方法和系统。

技术介绍

[0002]数字图像处理技术是一个跨学科的领域。随着计算机科学技术的不断发展,图像处理和分析逐渐形成了自己的科学体系,新的处理方法层出不穷,尽管其发展历史不长,但却引起各方面人士的广泛关注。首先,视觉是人类最重要的感知手段,图像又是视觉的基础,因此,数字图像成为心理学、生理学、计算机科学等诸多领域内的学者们研究视觉感知的有效工具。其次,图像处理在军事、遥感、气象等大型应用中有不断增长的需求。
[0003]图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向,是图像语义理解的重要一环。图像分割是图像识别和计算机视觉至关重要的预处理,没有正确的分割就不可能有正确的识别。图像分割是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。
[0004]现有的图像分割技术主要包括基于阈值分割、边缘检测、区域生长、分水岭算法等多种方法。这些方法各有优缺点,但是都存在一些共性问题,例如对噪声和复杂图像的处理能力较弱,对图像纹理和颜色差异的识别能力不足,难以适应多种场景和多种类型的图像;以及需要使用者对图像分割算法有较强的专业知识,使用门槛较高。

技术实现思路

[0005]基于此,提供一种基于多模态对话语言模型的图像分割方法和系统,以解决现有图像分割技术要求使用者对图像分割算法有较强的专业知识,使用门槛较高的技术问题。
[0006]为了实现上述目的,本申请提供如下技术方案:
[0007]第一方面,一种基于多模态对话语言模型的图像分割方法,应用于云平台,所述方法包括:
[0008]S1,训练得到多模态对话语言模型;
[0009]S2,训练得到图像分割神经网络模型;
[0010]S3,接收用户输入的图像分割需求和待分割图像,所述图像分割需求的模态为多种模态中的一种;
[0011]S4,将所述图像分割需求输入到所述多模态对话语言模型中,利用所述多模态对话语言模型,将所述图像分割需求转化为图像分割任务;
[0012]S5,将所述待分割图像和图像分割任务输入到所述图像分割神经网络模型中,利用所述图像分割神经网络模型,根据所述图像分割任务对所述待分割图像进行分割,得到所述待分割图像的分割结果。
[0013]可选地,所述多种模态包括语音、文本和图像。
[0014]可选地,步骤S1具体包括:
[0015]获取多模态数据集,所述多模态数据集包括多种模态的数据样本;对所述多模态数据集中的每个数据样本进行语义标注;
[0016]获取第一图像训练数据集;
[0017]利用所述多模态数据集,训练得到预训练语言模型,所述预训练语言模型能够理解和分析输入的数据,提取语义信息并生成对应的输出;
[0018]利用所述第一图像训练数据集,训练得到预训练图像分割模型,所述预训练图像分割模型能够将输入图像分割成不同物体或区域,并生成对应的分割结果;
[0019]将所述预训练语言模型和预训练图像分割模型作为基础模型,通过反向自回归或联合优化的方式,对所述预训练语言模型和预训练图像分割模型进行联合训练,得到多模态对话语言模型。
[0020]进一步可选地,所述多模态数据集包括维基百科和新闻报道,所述预训练语言模型为BERT或GPT,所述第一图像训练数据集为COCO或PASCAL VOC,所述预训练图像分割模型为FCN或U

Net。
[0021]可选地,步骤S2具体包括:
[0022]获取第二图像训练数据集,所述第二图像训练数据集包括多个图像和对应的分割任务标注;对所述第二图像训练数据集中每张图像的每个像素点进行归属信息标注;
[0023]将所述第二图像训练数据集以预设比例划分为训练集和验证集;
[0024]设计神经网络模型;
[0025]使用所述第二图像训练数据集中的训练集,对所述神经网络模型进行训练,得到图像分割神经网络模型;
[0026]使用所述第二图像训练数据集中的验证集,对所述图像分割神经网络模型进行验证,根据验证结果对所述图像分割神经网络模型的泛化能力进行评估;
[0027]对所述图像分割神经网络模型进行参数调优,选择最佳的模型参数,将所述图像分割神经网络模型的参数设置为选择的最佳的模型参数。
[0028]进一步可选地,所述第二图像训练数据集为SA

1B;所述神经网络模型为SAM、FCN、U

Net或Mask R

CNN;
[0029]使用所述第二图像训练数据集中的训练集,对所述神经网络模型进行训练,得到图像分割神经网络模型,具体包括:
[0030]S2A,初始化所述神经网络模型的参数;
[0031]S2B,将所述第二图像训练数据集中的训练集输入到所述神经网络模型中,通过前向传播计算模型的输出,得到对所述第二图像训练数据集中的训练集预测的分割结果;
[0032]S2C,将计算得到的输出与对应的分割任务标注和归属信息标注进行比较,通过优化算法,计算损失函数,评价预测的分割结果与真实分割结果的差异;
[0033]S2D,进行反向传播,更新所述神经网络模型的参数,使损失函数最小化;
[0034]S2E,不断重复步骤S2B

S2D,直至所述神经网络模型收敛、损失函数不再下降,将最终收敛的所述神经网络模型作为图像分割神经网络模型。
[0035]进一步可选地,步骤S2还包括
[0036]扩充所述第二图像训练数据集,以解决过拟合问题;
[0037]更改所述图像分割神经网络模型的结构,利用扩充后的所述第二图像训练数据集
训练更改结构后的所述图像分割神经网络模型;在训练更改结构后的所述图像分割神经网络模型时,更换损失函数或优化器,以更好地训练所述图像分割神经网络模型;
[0038]通过不断的迭代,提升所述图像分割神经网络模型的性能。
[0039]可选地,在训练所述多模态对话语言模型和图像分割神经网络模型时,在CPU上同时执行多个进程或线程,并使用GPU进行并行计算。
[0040]可选地,所述将所述图像分割需求转化为图像分割任务,包括:
[0041]通过文本解码器将所述图像分割需求表示为自由格式文本;
[0042]利用分词器,对所述自由格式文本进行处理,提取出图像分割任务。
[0043]第二方面,一种基于多模态对话语言模型的图像分割系统,所述系统打包成Docker镜像,通过Kubernetes集群管理技术部署在云平台上,所述系统包括:
[0044]多模态对话语言模型训练模块,用于训练得到多模态对话语言模型;
[0045]图像分割神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态对话语言模型的图像分割方法,其特征在于,应用于云平台,所述方法包括:S1,训练得到多模态对话语言模型;S2,训练得到图像分割神经网络模型;S3,接收用户输入的图像分割需求和待分割图像,所述图像分割需求的模态为多种模态中的一种;S4,将所述图像分割需求输入到所述多模态对话语言模型中,利用所述多模态对话语言模型,将所述图像分割需求转化为图像分割任务;S5,将所述待分割图像和图像分割任务输入到所述图像分割神经网络模型中,利用所述图像分割神经网络模型,根据所述图像分割任务对所述待分割图像进行分割,得到所述待分割图像的分割结果。2.根据权利要求1所述的基于多模态对话语言模型的图像分割方法,其特征在于,所述多种模态包括语音、文本和图像。3.根据权利要求1所述的基于多模态对话语言模型的图像分割方法,其特征在于,步骤S1具体包括:获取多模态数据集,所述多模态数据集包括多种模态的数据样本;对所述多模态数据集中的每个数据样本进行语义标注;获取第一图像训练数据集;利用所述多模态数据集,训练得到预训练语言模型,所述预训练语言模型能够理解和分析输入的数据,提取语义信息并生成对应的输出;利用所述第一图像训练数据集,训练得到预训练图像分割模型,所述预训练图像分割模型能够将输入图像分割成不同物体或区域,并生成对应的分割结果;将所述预训练语言模型和预训练图像分割模型作为基础模型,通过反向自回归或联合优化的方式,对所述预训练语言模型和预训练图像分割模型进行联合训练,得到多模态对话语言模型。4.根据权利要求3所述的基于多模态对话语言模型的图像分割方法,其特征在于,所述多模态数据集包括维基百科和新闻报道,所述预训练语言模型为BERT或GPT,所述第一图像训练数据集为COCO或PASCALVOC,所述预训练图像分割模型为FCN或U

Net。5.根据权利要求1所述的基于多模态对话语言模型的图像分割方法,其特征在于,步骤S2具体包括:获取第二图像训练数据集,所述第二图像训练数据集包括多个图像和对应的分割任务标注;对所述第二图像训练数据集中每张图像的每个像素点进行归属信息标注;将所述第二图像训练数据集以预设比例划分为训练集和验证集;设计神经网络模型;使用所述第二图像训练数据集中的训练集,对所述神经网络模型进行训练,得到图像分割神经网络模型;使用所述第二图像训练数据集中的验证集,对所述图像分割神经网络模型进行验证,根据验证结果对所述图像分割神经网络模型的泛化能力进行评估;对所述图像分割神经网络模型进行参数调优,选择最佳的模型参数,将所述图像分割
神经网络模型的参数设置为选择的最佳的模型参数。6.根据权利要求5所述的基于多模态对话语言模型的图像分割方法,其特征在于,所述第二图像训练数据集为SA
...

【专利技术属性】
技术研发人员:杨超张成朱宝
申请(专利权)人:北京无代码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1