音视频匹配模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：42822252 阅读：16 留言：0更新日期：2024-09-24 20:59

本申请公开了一种音视频匹配模型的训练方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：对于音频样本集中的每一个音频样本，确定采用音频样本作为背景音乐的至少一个视频样本；根据至少一个视频样本的标签，确定音频样本的标签；根据视频样本和视频样本的标签，对视频特征提取器进行预训练；以及，根据音频样本和音频样本的标签，对音频特征提取器进行预训练；在对视频特征提取器和音频特征提取器预训练完成之后，对音视频匹配模型进行训练，音视频匹配模型用于确定视频样本和音频样本之间的匹配关系。使用完成训练的模型去进行音视频推荐，推荐的音频更符合视频的内容，命中率较高。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，特别涉及一种音视频匹配模型的训练方法、装置、设备及存储介质。

技术介绍

1、随着短视频等视频软件的盛行，用户帐号可以自行剪辑并发布视频，一般来说，用户帐号在发布视频时，同时会给视频配上bgm(background music，背景音乐)。

2、相关技术中，会根据bgm的热度(被使用次数/被播放次数)来给用户帐号的视频进行bgm推荐，例如，根据音频播放次数从大到小，来给用户帐号推荐bgm。

3、而相关技术中，根据热度来给用户推荐bgm，很有可能导致推荐给用户的bgm和用户待发布视频的内容不适配，导致推荐bgm的命中率(发布的bgm来自推荐的bgm的视频数量与发布的带bgm的视频数量的比值)低。

技术实现思路

1、本申请实施例提供了一种音视频匹配模型的训练方法、装置、设备及存储介质。所述技术方案如下：

2、根据本申请实施例的一个方面，提供了一种音视频匹配模型的训练方法，所述方法包括：

3、对于音频样本集中的每一个音频样本...

【技术保护点】

1.一种音视频匹配模型的训练方法，其特征在于，所述音视频匹配模型包括视频特征提取器和音频特征提取器；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个视频样本的标签，确定所述音频样本的标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述标签集合中包括K个不重复的标签，K为小于或等于M的正整数；

4.根据权利要求1所述的方法，其特征在于，所述对所述音视频匹配模型进行训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述音视频匹配模型还包括视频节奏特征提取器和音频节奏特征提取器；所述方法还包括：

...

【技术特征摘要】

1.一种音视频匹配模型的训练方法，其特征在于，所述音视频匹配模型包括视频特征提取器和音频特征提取器；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个视频样本的标签，确定所述音频样本的标签，包括：

3.根据权利要求2所述的方法，其特征在于，所述标签集合中包括k个不重复的标签，k为小于或等于m的正整数；

4.根据权利要求1所述的方法，其特征在于，所述对所述音视频匹配模型进行训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述音视频匹配模型还包括视频节奏特征提取器和音频节奏特征提取器；所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述通过所述视频节奏特征提取器提取所述视频样本对应的节奏信息，包括：

7.根据权利要求5所述的方法，其特征在于，所述通过所述音频节奏特征提取器提取所述音频样本对应的节奏信息，包括：

8.根据权利要求5所述的方法，其特征在于，所述音视频匹配模型还包括视频特征编码器、音频特征编码器和音视频匹配模块；所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述音视频匹配模块包括注意力子模块、视频特征映射子模块和音频特征映射子模块；

10.根据权利要求8所述的方法，其特征在于，所述音视频匹配模型还包括视频特征重建模块、音频特征重建模块、视频特征解码器和音频特征解码器；所述方法还包括：

11.根据权利要求9所述的方法，其特征在于，所述音视频匹配模型还包括文本模块，所述文本模块包括标签特征提取器、标签特征映射子模块以及...

【专利技术属性】
技术研发人员：刘山松，毛甜君，张韵璇，李典，单瀛，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人