音视频多任务学习、评估方法、计算机设备及介质技术

技术编号：37131961 阅读：46 留言：0更新日期：2023-04-06 21:30

本申请实施例公开了一种音视频多任务学习、评估方法、计算机设备及存储介质，该方法包括：获取音视频训练数据集，音视频训练数据集包括视频训练数据、音频训练数据和标注数据；对视频训练数据进行特征提取处理，得到目标视频特征向量，以及对音频训练数据进行特征提取处理，得到目标音频特征向量；利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到第一任务损失函数值、第二任务损失函数值和第三任务损失函数值；根据第一任务损失函数值、第二任务损失函数值和第三损失函数值调整模型参数并进行重新训练，得到音视频多任务评估模型。通过这种方式可以提高音视频多任务评估的效率和准确性。效率和准确性。效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
音视频多任务学习、评估方法、计算机设备及介质

[0001]本申请涉及图像处理
，尤其涉及一种音视频多任务学习、评估方法、计算机设备及存储介质。

技术介绍

[0002]目前大多数机器学习任务是单任务学习，单独采用两个模型来分别进行任务学习，单任务学习在学习过程中没有在多个任务中共享它们所学到的信息，这导致单任务学习的模型通常泛化性能较差。
[0003]在音视频多任务评估中，如果使用单任务模型进行音视频多任务评估，由于单任务模型使用单个模型参数，占用内存增加了，需要消耗更多的计算资源，模型的推理时间也是双倍的增加，音视频质量的评估效率较低。在一段视频中，音频质量和视频画面质量这两个是有相互关联的，如果将音视频完全切割开的，所以导致视频质量评估的准确性不高。因此，如何提高音视频多任务评估的效率和准确性非常重要。

技术实现思路

[0004]本申请实施例提供了一种音视频多任务学习、评估方法、计算机设备及存储介质，可以提高音视频多任务评估的效率和准确性。
[0005]第一方面，本申请实施例提供了一种...

【技术保护点】

【技术特征摘要】
1.一种音视频多任务学习方法，其特征在于，包括：获取音视频训练数据集，所述音视频训练数据集包括视频训练数据、音频训练数据和标注数据，所述标注数据包括音视频质量标签；对所述视频训练数据进行特征提取处理，得到目标视频特征向量，以及对所述音频训练数据进行特征提取处理，得到目标音频特征向量；利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，所述目标损失函数值包括同方差参数，所述同方差参数与多任务权重相关联；根据所述同方差参数调整所述目标损失函数值，根据所述目标损失函数值调整模型参数，并利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。2.根据权利要求1所述的方法，其特征在于，所述音视频质量标签包括音频质量标签、视频质量标签和音视频质量等级综合标签；所述利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，包括：对所述目标音频特征向量和所述目标视频特征向量进行融合处理，得到目标特征向量；将所述目标音频特征向量和音频质量标签、所述目标视频特征向量和视频质量标签以及所述目标特征向量和音视频质量等级综合标签输入所述第一深度学习神经网络模型进行训练，得到所述目标损失函数值。3.根据权利要求2所述的方法，其特征在于，所述将所述目标音频特征向量和音频质量标签、所述目标视频特征向量和视频质量标签以及所述目标特征向量和音视频质量等级综合标签输入所述第一深度学习神经网络模型进行训练，得到所述目标损失函数值，包括：利用所述目标音频特征向量和音频质量标签对所述第一深度学习神经网络模型进行训练，得到第一任务损失函数值；利用所述目标视频特征向量和视频质量标签对所述第一深度学习神经网络模型进行训练，得到第二任务损失函数值；利用所述目标特征向量和音视频质量等级综合标签对所述第一深度学习神经网络模型进行训练，得到第三任务损失函数值；根据所述第一任务损失函数值、所述第二任务损失函数值、所述第三任务损失函数值确定所述目标损失函数值。4.根据权利要求3所述的方法，其特征在于，所述音频质量标签包括音频质量等级标签和音频质量原因标签；所述利用所述目标音频特征向量和音频质量标签对所述第一深度学习...

【专利技术属性】
技术研发人员：聂鑫，洪国伟，董治，姜涛，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人