【技术实现步骤摘要】
多模态模型的生成方法、多模态处理方法及设备
[0001]本申请涉及人工智能
,尤其涉及一种多模态模型的生成方法
、
多模态处理方法及设备
。
技术介绍
[0002]随着大模型在人工智能领域的广泛应用,在语言理解
、
生成
、
交互和推理方面表现出较强的处理能力,并涌现出各种各样的应用场景
。
[0003]例如,对话模型是一种具有对话能力的大模型,能够根据用户的对话上文,生成对应的对话下文,满足不同场景下的智能对话需求
。
在一些技术中,可以基于预训练的语言模型,结合下游任务的微调过程,得到可使用的对话模型
。
[0004]但是,预训练的语言模型通常仅有处理文本信息的能力,难以直接对其它模态的信息,如图像
、
音频
、
视频等进行处理,导致模型的输入单一,难以满足用户需求;也有一些技术尝试在训练模型时使用多模态信息,但是,训练的整体效率和准确性依然有待提升
。
技术实现思路
[0005]本申请实施例的主要目的在于提供一种多模态模型的生成方法
、
多模态处理方法及设备,以提升多模态模型的训练效率和准确性
。
[0006]第一方面,本申请实施例提供一种多模态模型的生成方法,包括:
[0007]获取模态信息,所述模态信息包含除文本以外的任意一种或多种模态的内容;
[0008]确定所述模态信息对应的描述文本,根据所述 ...
【技术保护点】
【技术特征摘要】
1.
一种多模态模型的生成方法,其特征在于,包括:获取模态信息,所述模态信息包含除文本以外的任意一种或多种模态的内容;确定所述模态信息对应的描述文本,根据所述描述文本,通过预训练的基础模型,生成输入信息和输出信息,得到自生成训练样本,所述自生成训练样本包括:所述模态信息
、
所述输入信息和所述输出信息;根据所述基础模型构建多模态模型,并根据所述自生成训练样本对所述多模态模型进行微调;通过微调后的多模态模型,基于模态信息生成输入信息和输出信息,继续对所述多模态模型进行微调;其中,微调后的多模态模型用于根据模态信息和输入信息,确定输出信息
。2.
根据权利要求1所述的方法,其特征在于,还包括:根据所述模态信息,通过人工标注的方式确定输入信息和输出信息,得到基础训练样本;其中,得到的基础训练样本和自生成训练样本均为多个;对至少两个原始训练样本进行拼接,得到拼接后的训练样本;其中,所述原始训练样本为从多个基础训练样本
、
以及多个自生成训练样本中任意选取的训练样本;相应的,根据所述自生成训练样本对所述多模态模型进行微调,包括:根据所述基础训练样本
、
拼接后的训练样本以及所述自生成训练样本,对所述多模态模型进行微调
。3.
根据权利要求2所述的方法,其特征在于,对至少两个原始训练样本进行拼接,得到拼接后的训练样本,包括:从所述至少两个原始训练样本中提取各原始训练样本的模态信息,得到至少两个模态信息,并从第一原始训练样本中提取输入信息;其中,所述第一原始训练样本为所述至少两个原始训练样本中的任意一个原始训练样本;生成指示信息,所述指示信息用于指示提取的输入信息对应的模态信息在所述至少两个模态信息中的序号;根据提取到的至少两个模态信息
、
输入信息以及指示信息,生成拼接后的训练样本
。4.
根据权利要求2所述的方法,其特征在于,所述根据所述模态信息,通过人工标注的方式确定输入信息和输出信息,得到基础训练样本,包括:向第一终端发送第一展示指令,所述第一展示指令用于向第一标注人员展示所述模态信息;获取第一终端返回的所述第一标注人员根据所述模态信息标注的输入信息;向第二终端发送第二展示指令,所述第二展示指令用于向第二标注人员展示所述模态信息以及标注的输入信息;获取第二终端返回的第二标注人员根据所述模态信息和输入信息标注的输出信息;所述确定所述模态信息对应的描述文本,包括:向第三终端发送第三展示指令,所述第三展示指令用于向第三标注人员展示所述模态信息;获取第三终端返回的第三标注人员根据所述模态信息标注的描述文本
。5.
根据权利要求1所述的方法,其特征在于,通过微调后的多模态模型,基于模态信息生成输入信息和输出信息,继续对所述多模态模型进行微调,包括:
通过微调后的多模态模型,根据模态信息生成输入信息和输出信息,得到基于模态信息生成的训练样本;向筛选终端发送筛选指令,所述筛选指令用于向筛选人员展示至少一个基于模态信息生成的训练样本;获取所述筛选终端返回的所述筛选人员对所述至少一个基于模态信息生成的训练样本进行筛选和
/
或改写后得到的训练样本;根据返回的训练样本,对所述多模态模型进行微调;重复执行上述基于模态信息生成训练样本
、
筛选改写和微调的过程,直至所述多模态模型的性能满足预设要求
。6.
根据权利要求1所述的方法,其特征在于,所述根据所述描述文本,通过预训练的基础模型,生成输入信息和输出信息,包括:获取提示词,将所述描述文本和提示词输入预训练的基础模型,得到输入信息,将所述描述文本和得到的输入信息输入到所述基础模型,得到输出信息;所述通过微调后的多模态模型,根据模态信息生成输入信息和输出信息,包括:将模态信息和提示词输入微调后的多模态模型,得到输入信息,将所述模态信息和得到的输入信息输入微调后的多模态模型,得到输出信息
。7.
根据权利要求1所述的方法,其特征在于,还包括:输出第四展示指令,所述第四展示指令用于向用户展示模态列表,所述模态列表包括:图像
、
音频
、
视频;获取用户从所述模态列表中选择的所述任意一种...
【专利技术属性】
技术研发人员:白帅,白金泽,周畅,
申请(专利权)人:杭州阿里巴巴飞天信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。