一种基于多模态对话语言模型的图像分割方法和系统技术方案

技术编号：39439024 阅读：15 留言：0更新日期：2023-11-19 16:22

本发明专利技术公开了一种基于多模态对话语言模型的图像分割方法和系统。方法包括：训练得到多模态对话语言模型和图像分割神经网络模型；接收用户输入的图像分割需求和待分割图像；将图像分割需求输入到多模态对话语言模型中，利用多模态对话语言模型，将图像分割需求转化为图像分割任务；将待分割图像和图像分割任务输入到图像分割神经网络模型中，根据图像分割任务对待分割图像进行分割。本发明专利技术通过多模态对话语言模型实现语言和图像之间的自然交互，可以同时处理多种模态的输入，将用户的语言需求转化为图像分割的任务；用户不需要具备专业的图像处理技能，只需要通过自然语言的方式向系统提出需求即可，大大降低了使用门槛，提高了使用效率。使用效率。使用效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态对话语言模型的图像分割方法和系统

[0001]本申请涉及图像分割
，特别是涉及一种基于多模态对话语言模型的图像分割方法和系统。

技术介绍

[0002]数字图像处理技术是一个跨学科的领域。随着计算机科学技术的不断发展，图像处理和分析逐渐形成了自己的科学体系，新的处理方法层出不穷，尽管其发展历史不长，但却引起各方面人士的广泛关注。首先，视觉是人类最重要的感知手段，图像又是视觉的基础，因此，数字图像成为心理学、生理学、计算机科学等诸多领域内的学者们研究视觉感知的有效工具。其次，图像处理在军事、遥感、气象等大型应用中有不断增长的需求。
[0003]图像分割(image segmentation)技术是计算机视觉领域的个重要的研究方向，是图像语义理解的重要一环。图像分割是图像识别和计算机视觉至关重要的预处理，没有正确的分割就不可能有正确的识别。图像分割是指将图像分成若干具有相似性质的区域的过程，从数学角度来看，图像分割是将图像划分成互不相交的区域的过程。
[0004]现有的图像分割技术主要包括基于阈值分割、边缘检测、区域生长、分水岭算法等多种方法。这些方法各有优缺点，但是都存在一些共性问题，例如对噪声和复杂图像的处理能力较弱，对图像纹理和颜色差异的识别能力不足，难以适应多种场景和多种类型的图像；以及需要使用者对图像分割算法有较强的专业知识，使用门槛较高。

技术实现思路

[0005]基于此，提供一种基于多模态对话语言模型的图像分割方法和系统，以解决现有图像分割技术要求使用者对图...

【技术保护点】

【技术特征摘要】
1.一种基于多模态对话语言模型的图像分割方法，其特征在于，应用于云平台，所述方法包括：S1，训练得到多模态对话语言模型；S2，训练得到图像分割神经网络模型；S3，接收用户输入的图像分割需求和待分割图像，所述图像分割需求的模态为多种模态中的一种；S4，将所述图像分割需求输入到所述多模态对话语言模型中，利用所述多模态对话语言模型，将所述图像分割需求转化为图像分割任务；S5，将所述待分割图像和图像分割任务输入到所述图像分割神经网络模型中，利用所述图像分割神经网络模型，根据所述图像分割任务对所述待分割图像进行分割，得到所述待分割图像的分割结果。2.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述多种模态包括语音、文本和图像。3.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，步骤S1具体包括：获取多模态数据集，所述多模态数据集包括多种模态的数据样本；对所述多模态数据集中的每个数据样本进行语义标注；获取第一图像训练数据集；利用所述多模态数据集，训练得到预训练语言模型，所述预训练语言模型能够理解和分析输入的数据，提取语义信息并生成对应的输出；利用所述第一图像训练数据集，训练得到预训练图像分割模型，所述预训练图像分割模型能够将输入图像分割成不同物体或区域，并生成对应的分割结果；将所述预训练语言模型和预训练图像分割模型作为基础模型，通过反向自回归或联合优化的方式，对所述预训练语言模型和预训练图像分割模型进行联合训练，得到多模态对话语言模型。4.根据权利要求3所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述多模态数据集包括维基百科和新闻报道，所述预训练语言模型为BERT或GPT，所述第一图像训练数据集为COCO或PASCALVOC，所述预训练图像分割模型为FCN或U
‑
Net。5.根据权利要求1所述的基于多模态对话语言模型的图像分割方法，其特征在于，步骤S2具体包括：获取第二图像训练数据集，所述第二图像训练数据集包括多个图像和对应的分割任务标注；对所述第二图像训练数据集中每张图像的每个像素点进行归属信息标注；将所述第二图像训练数据集以预设比例划分为训练集和验证集；设计神经网络模型；使用所述第二图像训练数据集中的训练集，对所述神经网络模型进行训练，得到图像分割神经网络模型；使用所述第二图像训练数据集中的验证集，对所述图像分割神经网络模型进行验证，根据验证结果对所述图像分割神经网络模型的泛化能力进行评估；对所述图像分割神经网络模型进行参数调优，选择最佳的模型参数，将所述图像分割
神经网络模型的参数设置为选择的最佳的模型参数。6.根据权利要求5所述的基于多模态对话语言模型的图像分割方法，其特征在于，所述第二图像训练数据集为SA
...

【专利技术属性】
技术研发人员：杨超，张成，朱宝，
申请(专利权)人：北京无代码科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人