【技术实现步骤摘要】
本专利技术涉及文本和语音的多模态处理,具体地,涉及针对口语问答的端到端的多模态大模型的训练方法及系统。
技术介绍
1、大语言模型近年来发展迅速,在文本生成方面比以前的方法表现出相当大的优势。尽管取得了这些成就,目前的大语言模型依然欠缺处理和理解多模态输入的能力。目前已有视觉输入相结合的相关技术,并在各类视觉相关任务中取得了显著的成就,但语音和文本模态结合的技术主要专注于分类问题,如多模态情感识别,而语音文本多模态输入的大语言模型则仍然相对缺乏探索。因此本专利技术将重点放在语音和文本模态的多模态输入与大语言模型的结合上,以弥补这一方面的缺失。
2、为了构建多模态输入的大模型,本专利技术首先结合了文本模态大语言模型自由问答的形式以及语音任务中的口语问答场景,定义了适用于语音文本多模态大语言模型的新场景。一般的口语问答任务类似于听力测试,给定一段语音作为语料,并给出一段文本形式的问题,要求根据问题和语音进行回答,不过为了便于分类模型进行训练,这里的回答是一个必定在语音中出现的词或短语,相关的模型则将回答词或短语处理成预测词或短语在
...【技术保护点】
1.一种针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述步骤S1采用:
3.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的语音数据利用语音预训练模型提取帧级语音特征向量采用:
4.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的文本数据利用文本预训练模型提取文本特征向量采用:
5.根据权利要求1所述
...【技术特征摘要】
1.一种针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述步骤s1采用:
3.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的语音数据利用语音预训练模型提取帧级语音特征向量采用:
4.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述口语问答数据集中的文本数据利用文本预训练模型提取文本特征向量采用:
5.根据权利要求1所述的针对口语问答的端到端的多模态大语言模型的训练方法,其特征在于,所述步骤s3采用:通过线性和非线性变换对音频特征和文本特征进...
【专利技术属性】
技术研发人员:王钰,赵子涵,刘鹤洋,王延峰,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。