针对口语问答的端到端的多模态大模型的训练方法及系统技术方案

技术编号:43006045 阅读:30 留言:0更新日期:2024-10-18 17:13
本发明专利技术提供了一种针对口语问答的端到端的多模态大语言模型的训练方法及系统,包括:利用现有语音识别数据集构建针对大语言模型的口语问答数据集;利用语音预训练模型提取输入语音的帧级语音特征向量提取器;利用文本预训练模型提取输入文本的文本特征向量提取器;利用线性变化模块进行语音和文本特征融合的特征融合模块;利用文本预训练大语言模型对融合特征进行解码并产生文本输出的解码器部分。本发明专利技术提出了一种便捷的数据集构建方式,并提出分别利用语音,文本预训练模型提取语音和文本的特征向量,两种特征向量通过提出的特征融合模块进行融合后送入文本预训练大语言模型并进行参数微调,以实现端到端的多模态大语言模型训练。

【技术实现步骤摘要】

本专利技术涉及文本和语音的多模态处理,具体地,涉及针对口语问答的端到端的多模态大模型的训练方法及系统


技术介绍

1、大语言模型近年来发展迅速,在文本生成方面比以前的方法表现出相当大的优势。尽管取得了这些成就,目前的大语言模型依然欠缺处理和理解多模态输入的能力。目前已有视觉输入相结合的相关技术,并在各类视觉相关任务中取得了显著的成就,但语音和文本模态结合的技术主要专注于分类问题,如多模态情感识别,而语音文本多模态输入的大语言模型则仍然相对缺乏探索。因此本专利技术将重点放在语音和文本模态的多模态输入与大语言模型的结合上,以弥补这一方面的缺失。

2、为了构建多模态输入的大模型,本专利技术首先结合了文本模态大语言模型自由问答的形式以及语音任务中的口语问答场景,定义了适用于语音文本多模态大语言模型的新场景。一般的口语问答任务类似于听力测试,给定一段语音作为语料,并给出一段文本形式的问题,要求根据问题和语音进行回答,不过为了便于分类模型进行训练,这里的回答是一个必定在语音中出现的词或短语,相关的模型则将回答词或短语处理成预测词或短语在语音中出现的时间戳,本文档来自技高网...

【技术保护点】

1.一种针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述步骤S1采用:

3.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的语音数据利用语音预训练模型提取帧级语音特征向量采用:

4.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的文本数据利用文本预训练模型提取文本特征向量采用:

5.根据权利要求1所述的针对口语问答的端到...

【技术特征摘要】

1.一种针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述步骤s1采用:

3.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的语音数据利用语音预训练模型提取帧级语音特征向量采用:

4.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的文本数据利用文本预训练模型提取文本特征向量采用:

5.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述步骤s3采用:通过线性和非线性变换对音频特征和文本特征进...

【专利技术属性】
技术研发人员:王钰赵子涵刘鹤洋王延峰
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1