多模态模型的生成方法技术

技术编号:39713044 阅读:7 留言:0更新日期:2023-12-17 23:21
本申请提供一种多模态模型的生成方法

【技术实现步骤摘要】
多模态模型的生成方法、多模态处理方法及设备


[0001]本申请涉及人工智能
,尤其涉及一种多模态模型的生成方法

多模态处理方法及设备


技术介绍

[0002]随着大模型在人工智能领域的广泛应用,在语言理解

生成

交互和推理方面表现出较强的处理能力,并涌现出各种各样的应用场景

[0003]例如,对话模型是一种具有对话能力的大模型,能够根据用户的对话上文,生成对应的对话下文,满足不同场景下的智能对话需求

在一些技术中,可以基于预训练的语言模型,结合下游任务的微调过程,得到可使用的对话模型

[0004]但是,预训练的语言模型通常仅有处理文本信息的能力,难以直接对其它模态的信息,如图像

音频

视频等进行处理,导致模型的输入单一,难以满足用户需求;也有一些技术尝试在训练模型时使用多模态信息,但是,训练的整体效率和准确性依然有待提升


技术实现思路

[0005]本申请实施例的主要目的在于提供一种多模态模型的生成方法

多模态处理方法及设备,以提升多模态模型的训练效率和准确性

[0006]第一方面,本申请实施例提供一种多模态模型的生成方法,包括:
[0007]获取模态信息,所述模态信息包含除文本以外的任意一种或多种模态的内容;
[0008]确定所述模态信息对应的描述文本,根据所述描述文本,通过预训练的基础模型,生成输入信息和输出信息,得到自生成训练样本,所述自生成训练样本包括:所述模态信息

所述输入信息和所述输出信息;
[0009]根据所述基础模型构建多模态模型,并根据所述自生成训练样本对所述多模态模型进行微调;
[0010]通过微调后的多模态模型,基于模态信息生成输入信息和输出信息,继续对所述多模态模型进行微调;其中,微调后的多模态模型用于根据模态信息和输入信息,确定输出信息

[0011]第二方面,本申请实施例提供一种多模态对话模型的生成方法,包括:
[0012]获取模态信息,所述模态信息包含除文本以外的任意一种或多种模态的内容;
[0013]确定所述模态信息对应的描述文本,根据所述描述文本,通过预训练的语言模型,生成对话上文和对话下文,得到自生成训练样本,所述自生成训练样本包括:所述模态信息

所述对话上文和所述对话下文;
[0014]根据所述语言模型构建多模态对话模型,并根据所述自生成训练样本对所述多模态对话模型进行微调;
[0015]通过微调后的多模态对话模型,基于模态信息生成对话上文和对话下文,继续对所述多模态对话模型进行微调;其中,微调后的多模态对话模型用于根据模态信息和对话
上文,确定对话下文

[0016]第三方面,本申请实施例提供一种多模态处理方法,包括:
[0017]获取待处理信息,所述待处理信息包括模态信息和输入信息,所述模态信息包含除文本以外的任意一种或多种模态的内容;
[0018]基于多模态模型,确定所述待处理信息对应的输出信息;
[0019]其中,所述多模态模型是通过前述任一项所述的方法生成的

[0020]第四方面,本申请实施例提供一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与所述至少一个处理器通信连接的存储器;
[0023]其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述电子设备执行上述任一方面所述的方法

[0024]本申请提供的多模态模型的生成方法

多模态处理方法及设备,可以获取模态信息,所述模态信息包含除文本以外的任意一种或多种模态的内容,确定所述模态信息对应的描述文本,根据所述描述文本,通过预训练的基础模型,生成输入信息和输出信息,得到自生成训练样本,所述自生成训练样本包括:所述模态信息

所述输入信息和所述输出信息,根据所述基础模型构建多模态模型,并根据所述自生成训练样本对所述多模态模型进行微调,通过微调后的多模态模型,基于模态信息生成输入信息和输出信息,继续对所述多模态模型进行微调,从而使模型具备处理多模态信息的能力,且可以利用模型的多模态理解能力进行迭代微调,仅需少量的前期标注即可完成模型的训练,减少人工标注的花费时间,提升整体的训练效率,并且,先利用描述文本生成训练样本,后利用模态信息本身生成训练样本,能够挖掘模态信息中丰富的细节特征,提升模型的准确性

附图说明
[0025]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理

[0026]图1为本申请实施例提供的一种应用场景示意图;
[0027]图2为本申请实施例提供的一种多模态对话模型的生成方法的流程示意图;
[0028]图3为本申请实施例提供的一种数据标注的交互示意图;
[0029]图4为本申请实施例提供的一种多模态对话模型的原理示意图;
[0030]图5为本申请实施例提供的一种优化模型的流程示意图;
[0031]图6为本申请实施例提供的一种对比学习的原理示意图;
[0032]图7为本申请实施例提供的一种多模态对话模型的生成方法的原理示意图;
[0033]图8为本申请实施例提供的另一种多模态对话模型的生成方法的流程示意图;
[0034]图9为本申请实施例提供的一种多模态模型的生成方法的流程示意图;
[0035]图
10
为本申请实施例提供的一种多模态对话方法的流程示意图;
[0036]图
11
为本申请实施例提供的一种电子设备的结构示意图

[0037]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述

这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念

具体实施方式
[0038]这里将详细地对示例性实施例进行说明,其示例表示在附图中

下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素

以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式

[0039]需要说明的是,本申请所涉及的用户信息
(
包括但不限于用户设备信息

用户属性信息等
)
和数据
(
包括但不限于用于分析的数据

存储的数据

展示的数据等
)
,均本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多模态模型的生成方法,其特征在于,包括:获取模态信息,所述模态信息包含除文本以外的任意一种或多种模态的内容;确定所述模态信息对应的描述文本,根据所述描述文本,通过预训练的基础模型,生成输入信息和输出信息,得到自生成训练样本,所述自生成训练样本包括:所述模态信息

所述输入信息和所述输出信息;根据所述基础模型构建多模态模型,并根据所述自生成训练样本对所述多模态模型进行微调;通过微调后的多模态模型,基于模态信息生成输入信息和输出信息,继续对所述多模态模型进行微调;其中,微调后的多模态模型用于根据模态信息和输入信息,确定输出信息
。2.
根据权利要求1所述的方法,其特征在于,还包括:根据所述模态信息,通过人工标注的方式确定输入信息和输出信息,得到基础训练样本;其中,得到的基础训练样本和自生成训练样本均为多个;对至少两个原始训练样本进行拼接,得到拼接后的训练样本;其中,所述原始训练样本为从多个基础训练样本

以及多个自生成训练样本中任意选取的训练样本;相应的,根据所述自生成训练样本对所述多模态模型进行微调,包括:根据所述基础训练样本

拼接后的训练样本以及所述自生成训练样本,对所述多模态模型进行微调
。3.
根据权利要求2所述的方法,其特征在于,对至少两个原始训练样本进行拼接,得到拼接后的训练样本,包括:从所述至少两个原始训练样本中提取各原始训练样本的模态信息,得到至少两个模态信息,并从第一原始训练样本中提取输入信息;其中,所述第一原始训练样本为所述至少两个原始训练样本中的任意一个原始训练样本;生成指示信息,所述指示信息用于指示提取的输入信息对应的模态信息在所述至少两个模态信息中的序号;根据提取到的至少两个模态信息

输入信息以及指示信息,生成拼接后的训练样本
。4.
根据权利要求2所述的方法,其特征在于,所述根据所述模态信息,通过人工标注的方式确定输入信息和输出信息,得到基础训练样本,包括:向第一终端发送第一展示指令,所述第一展示指令用于向第一标注人员展示所述模态信息;获取第一终端返回的所述第一标注人员根据所述模态信息标注的输入信息;向第二终端发送第二展示指令,所述第二展示指令用于向第二标注人员展示所述模态信息以及标注的输入信息;获取第二终端返回的第二标注人员根据所述模态信息和输入信息标注的输出信息;所述确定所述模态信息对应的描述文本,包括:向第三终端发送第三展示指令,所述第三展示指令用于向第三标注人员展示所述模态信息;获取第三终端返回的第三标注人员根据所述模态信息标注的描述文本
。5.
根据权利要求1所述的方法,其特征在于,通过微调后的多模态模型,基于模态信息生成输入信息和输出信息,继续对所述多模态模型进行微调,包括:
通过微调后的多模态模型,根据模态信息生成输入信息和输出信息,得到基于模态信息生成的训练样本;向筛选终端发送筛选指令,所述筛选指令用于向筛选人员展示至少一个基于模态信息生成的训练样本;获取所述筛选终端返回的所述筛选人员对所述至少一个基于模态信息生成的训练样本进行筛选和
/
或改写后得到的训练样本;根据返回的训练样本,对所述多模态模型进行微调;重复执行上述基于模态信息生成训练样本

筛选改写和微调的过程,直至所述多模态模型的性能满足预设要求
。6.
根据权利要求1所述的方法,其特征在于,所述根据所述描述文本,通过预训练的基础模型,生成输入信息和输出信息,包括:获取提示词,将所述描述文本和提示词输入预训练的基础模型,得到输入信息,将所述描述文本和得到的输入信息输入到所述基础模型,得到输出信息;所述通过微调后的多模态模型,根据模态信息生成输入信息和输出信息,包括:将模态信息和提示词输入微调后的多模态模型,得到输入信息,将所述模态信息和得到的输入信息输入微调后的多模态模型,得到输出信息
。7.
根据权利要求1所述的方法,其特征在于,还包括:输出第四展示指令,所述第四展示指令用于向用户展示模态列表,所述模态列表包括:图像

音频

视频;获取用户从所述模态列表中选择的所述任意一种...

【专利技术属性】
技术研发人员:白帅白金泽周畅
申请(专利权)人:杭州阿里巴巴飞天信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1