音频可视化模型训练及音频可视化方法、装置及设备制造方法及图纸

技术编号:29401252 阅读:12 留言:0更新日期:2021-07-23 22:38
本发明专利技术提供一种提供音频可视化模型训练及音频可视化方法、装置及设备,包括:获取包括用户信息、用户历史播放视频、目标音频、目标视频、目标音频是否关联的关系标签的训练样本;将训练样本输入音频可视化模型,对目标音频进行特征提取,得到目标音频的第一特征表示;对用户信息、用户历史播放视频进行特征提取得到用户特征、用户兴趣表达特征,对目标视频进行特征提取得到第二特征表示,将用户特征、用户兴趣表达特征和第二特征表示联合处理得到第三特征表示;确定第一特征表示和第三特征表示之间的相似度;根据相似度及训练样本中的关系标签,更新音频可视化模型的参数。本发明专利技术可以对同一音频进行个性化视频搭配,满足多样化的用户需求。

【技术实现步骤摘要】
音频可视化模型训练及音频可视化方法、装置及设备
本专利技术涉及音视频
,尤其涉及一种音频可视化模型训练及音频可视化方法、装置及设备。
技术介绍
在音频播放过程中,用户通过音响感知、情绪感受、形象联想与理性感悟,完成对音频作品由感性到理性的审美体验过程。音频具有形象思维的特点,在情感的伴随下,通过想象联想,获得音频形象、生活情景以及意境等形象,音频可视化因此而衍生出来。音频可视化主要实现以视频动画诠释音乐情绪,将音频素材和视频融为一体。相关技术中推出的一种音频播放场景为,根据用户当前播放的音频,自动为播放的音频搭配动态视频,不仅从听觉模式打动用户内心,而且通过视觉模式为用户带来冲击力。相关技术中自动为播放的音频搭配动态视频,主要通过建立视频类型标签与单曲风格映射规则,在音频播放过程中,根据音频的单曲风格,根据映射规则搭配对应的视频类型标签中的视频。在确定映射规则时,主要研究音频内容理解、情感检测,图形图像平移、缩放、旋转、切变复杂处理,最终呈现音频表现力,给用户带来极大的视觉刺激。但这种技术脱离了用户兴趣偏好,没有以用户个性化偏好为驱动进行视频搭配,难以满足多样化的用户需求。
技术实现思路
本专利技术实施例提供一种音频可视化方法、装置、设备及介质,可以根据用户的兴趣偏好,实现对同一音频进行的个性化视频搭配,满足多样化的用户需求。第一方面,本专利技术实施例提供一种音频可视化模型训练方法,该方法包括:获取训练样本,所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签;将所述训练样本输入音频可视化模型,对所述目标音频进行特征提取,得到所述目标音频的第一特征表示;对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征,对所述目标视频进行特征提取得到第二特征表示,将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示;确定所述第一特征表示和所述第三特征表示之间的相似度;根据所述相似度及所述训练样本中的关系标签,更新所述音频可视化模型的参数。作为一种可选的实施方式,所述训练样本还包括知识图谱;对目标音频/目标视频进行特征提取,包括:确定所述目标音频/目标视频在所述知识图谱中对应的目标节点,及确定通过边与所述目标节点建立关联关系的邻居节点;对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取,得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征;所述目标节点在所述知识图谱中与邻居节点的关系表达特征,包括所述目标音频在所述知识图谱中与邻居节点关系表达的所述第一特征表示或所述目标视频在所述知识图谱中与邻居节点关系表达的所述第二特征表示;所述知识图谱为将实体定义为节点,将存在关联关系的节点通过边连接,并根据所述关联关系的类型确定边的类型,根据节点的相关信息对所述节点进行属性信息填充所构建得到的图谱,所述实体包括音频和视频。通过构建融合音频、视频等丰富内容信息的复杂知识图谱,充分考虑了视频、单曲在更丰富属性的关联性,增强了音频和视频的关系特征表达。作为一种可选的实施方式,采用如下方式构建所述知识图谱:定义实体类型、实体属性信息、与不同类型关联关系对应的边及判定各类型的关联关系的规则,所述实体类型包括视频类型和音频类型;根据定义的所述实体类型、所述实体属性信息,从源数据库中抽取不同实体类型的实体作为节点,从所述节点的相关信息中抽取所述节点的属性信息;根据判定各类型的关联关系的规则,确定不同节点之间是否存在关联关系,并确定存在关联关系时,根据关联关系的类型利用对应类型的边连接所述不同节点。通过上述方式可以构建丰富在音频视频关联性的知识图谱,可以根据具体的需求定义相应的实体、边类型和抽取规则,自动构建融合音频、视频等丰富内容信息的复杂知识图谱。作为一种可选的实施方式,该方法还包括:利用不同的表格分别存储所抽取的节点、抽取的节点的属性信息、确定的是否存在关联关系的结果、边的连接信息;将所述抽取的节点作为索引项,对所述不同的表格进行融合得到该节点的表项内容,所述表项内容包括所述抽取的节点的属性信息、所述抽取的节点所关联的邻居节点、所述抽取的节点所关联的邻居节点与所述抽取的节点的关联关系的类型。通过上述融合方式,可以针对各个节点,将与该节点有关系的所有信息整合在一起,实现以该节点为索引时,可以获取到各种各样的关系。作为一种可选的实施方式,对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取,得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征,包括:确定与所述目标节点属于同一实体类型的同构邻居节点,利用第一特征提取层对所述同构邻居节点的属性信息、所述同构邻居节点连接所述目标节点的边对应的关联关系进行特征提取,得到所述目标节点在所述知识图谱中与同构邻居节点的第一关系表达特征;确定与所述目标节点属于不同实体类型的异构邻居节点,利用第一特征提取层对所述异构邻居节点的属性信息、所述异构邻居节点连接所述目标节点的边对应的关联关系进行特征提取,得到所述目标节点在所述知识图谱中与异构邻居接的第二关系表达特征;利用第二特征提取层,将所述第一关系表达特征和第二关系表达特征转换到同一向量空间,得到所述目标节点在所述知识图谱中与所述邻居节点的关系表达特征。通过上述特征提取过程,对于每个目标节点,不仅可以提取同类型的节点与该目标节点的关系表达,还可以提取不同类型的节点与该目标节点的关系表达,由于不同类型的节点在特征层面和网络拓扑结构上存在很大的差异性,因此在利用第一特征提取层提取关系表达特征后,进一步利用第二特征提取层对上述关系表达特征进一步特征提取,从而转换到同一向量空间。作为一种可选的实施方式,确定所述第一特征表示和所述第三特征表示之间的相似度,包括:将所述第一特征表示输入单曲双塔层,利用单曲双塔层对所述第一特征表示进行正则化处理;将所述第三特征表示输入视频双塔层,利用视频双塔层对所述第三特征表示进行正则化处理;确定正则化处理后的第一特征表示和所述第三特征表示之间的相似度。通过上述正则化处理,可以保证上述第一特征表示和第三特征表示在同一个数量级。作为一种可选的实施方式,确定所述第一特征表示和所述第三特征表示之间的相似度,包括:利用单曲双塔层中的三层LeakyReLU,对所述第一特征表示进行正则化处理;利用视频双塔层中的三层LeakyReLU,对所述第三特征表示进行正则化处理;通过连接单曲双塔层和视频双塔层的sigmoid函数,确定正则化处理后的所述第一特征表示和所述第三特征表示之间的相似度。利用三层LeakyReLU对第一特征表示/第三特征表示进行正则化处理,可以防止梯度消失和梯度保证,保证满足网络收敛的本文档来自技高网...

【技术保护点】
1.一种音频可视化模型训练方法,其特征在于,该方法包括:/n获取训练样本,所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签;/n将所述训练样本输入音频可视化模型,对所述目标音频进行特征提取,得到所述目标音频的第一特征表示;/n对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征,对所述目标视频进行特征提取得到第二特征表示,将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示;/n确定所述第一特征表示和所述第三特征表示之间的相似度;/n根据所述相似度及所述训练样本中的关系标签,更新所述音频可视化模型的参数。/n

【技术特征摘要】
1.一种音频可视化模型训练方法,其特征在于,该方法包括:
获取训练样本,所述训练样本包括用户信息、用户历史播放视频、目标音频、目标视频、表征所述目标音频和目标视频是否相关联的关系标签;
将所述训练样本输入音频可视化模型,对所述目标音频进行特征提取,得到所述目标音频的第一特征表示;
对所述用户信息、用户历史播放视频与目标视频的关系进行特征提取得到用户特征、用户兴趣表达特征,对所述目标视频进行特征提取得到第二特征表示,将所述用户特征、所述用户兴趣表达特征和所述第二特征表示联合处理得到第三特征表示;
确定所述第一特征表示和所述第三特征表示之间的相似度;
根据所述相似度及所述训练样本中的关系标签,更新所述音频可视化模型的参数。


2.根据权利要求1所述的方法,其特征在于,所述训练样本还包括知识图谱;对目标音频/目标视频进行特征提取,包括:
确定所述目标音频/目标视频在所述知识图谱中对应的目标节点,及确定通过边与所述目标节点建立关联关系的邻居节点;
对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取,得到所述目标节点在所述知识图谱中与邻居节点的关系表达特征;
所述目标节点在所述知识图谱中与邻居节点的关系表达特征,包括所述目标音频在所述知识图谱中与邻居节点关系表达的所述第一特征表示或所述目标视频在所述知识图谱中与邻居节点关系表达的所述第二特征表示;
所述知识图谱为将实体定义为节点,将存在关联关系的节点通过边连接,并根据所述关联关系的类型确定边的类型,根据节点的相关信息对所述节点进行属性信息填充所构建得到的图谱,所述实体包括音频和视频。


3.根据权利要求2所述的方法,其特征在于,采用如下方式构建所述知识图谱:
定义实体类型、实体属性信息、与不同类型关联关系对应的边及判定各类型的关联关系的规则,所述实体类型包括视频类型和音频类型;
根据定义的所述实体类型、所述实体属性信息,从源数据库中抽取不同实体类型的实体作为节点,从所述节点的相关信息中抽取所述节点的属性信息;
根据判定各类型的关联关系的规则,确定不同节点之间是否存在关联关系,并确定存在关联关系时,根据关联关系的类型利用对应类型的边连接所述不同节点。


4.根据权利要求3所述的方法,其特征在于,还包括:
利用不同的表格分别存储所抽取的节点、抽取的节点的属性信息、确定的是否存在关联关系的结果、边的连接信息;
将所述抽取的节点作为索引项,对所述不同的表格进行融合得到该节点的表项内容,所述表项内容包括所述抽取的节点的属性信息、所述抽取的节点所关联的邻居节点、所述抽取的节点所关联的邻居节点与所述抽取的节点的关联关系的类型。


5.根据权利要求2所述的方法,其特征在于,对所述邻居节点的属性信息、所述邻居节点连接所述目标节点的边对应的关联关系进行特征提取,得到所述目标节点在所述知识图谱中与邻...

【专利技术属性】
技术研发人员:展丽霞肖强孔昭阳董家骥李勇
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1