音频描述文本预测模型训练方法、文本预测方法以及装置制造方法及图纸

技术编号：44293811 阅读：16 留言：0更新日期：2025-02-18 20:14

本申请提供一种音频描述文本预测模型训练方法、文本预测方法以及装置。训练方法包括：获取音频数据样本以及音频数据样本对应的音频描述文本样本；基于音频数据样本和音频描述文本样本，通过对比学习，对待训练的音频编码模型和待训练的文本编码模型进行联合迭代训练，得到训练完成的音频编码模型和文本编码模型；音频编码模型用于输出的音频向量，文本编码模型用于输出的文本向量；基于文本编码模型对音频描述文本样本进行编码处理，得到文本向量，并基于文本向量和音频描述文本样本对待训练的音频描述文本预测模型进行迭代训练，得到训练完成的音频描述文本预测模型。本申请的训练方法，提高了描述文本的生成效率以及客观准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及音频描述文本预测模型训练，尤其涉及一种音频描述文本预测模型训练方法、文本预测方法以及装置。

技术介绍

1、汽车作为移动交通工具，车内的娱乐需求也逐渐被重视。人车交互是用户体验的核心，传统汽车座舱功能区不能满足人车交互的需求，智能座舱的出现解决了用户的部分需求。具体的，智能座舱能够根据汽车中播放的音视频的内容来自动调节座椅的朝向、振动频率、幅度以及释放相应的气味等。

2、为了实现上述智能控制，智能座舱控制系统需要获取到音频压缩文件中的音频描述文本信息(比如，节目的基调(悲伤、欢快)，强烈的振动，节奏强烈的摇滚乐等)，进而根据得到音频描述文本信息生成的座舱元数据生成对座舱进行控制的座舱控制指令。相关技术中，通常是通过将音频流数据中和音频流对应的音频描述文本进行压缩得到音频文件，并在渲染音频文件时直接根据文件中的音频描述文本生成对座舱的智能控制信号。

3、但是，目前大部分音频生成时尚未具备这些音频描述文本，需要后续基于人工手动为音频文件中的音频流进行文本描述，从而生成对应的音频描述文本。上述人工生成描述文本的...

【技术保护点】

1.一种音频描述文本预测模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述音频数据样本和所述音频描述文本样本，通过对比学习，对待训练的音频编码模型和待训练的文本编码模型进行联合迭代训练，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述正样本对和所述负样本对，训练音频编码模型和文本编码模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一损失函数包括：

5.根据权利要求3所述的方法，其特征在于，基于所述第一损失函数分别对所述待训练的音频编码模型和所述待训练的文本编码模型进行参数...

【技术特征摘要】

1.一种音频描述文本预测模型训练方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述正样本对和所述负样本对，训练音频编码模型和文本编码模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一损失函数包括：

5.根据权利要求3所述的方法，其特征在于，基于所述第一损失函数分别对所述待训练的音频编码模型和所述待训练的文本编码模型进行参数调节，包括：

6.根据权利要求3所述的方法，其特征在于，所述将所述正样本对和所述负样本对中的音频数据样本输入至所述待训练的音频编码模型中进行音频编码处理，得到音频向量，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述文...

【专利技术属性】
技术研发人员：陈笑天，潘兴德，
申请(专利权)人：北京全景声信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人