音频编码器的预训练方法、音频检测方法及装置制造方法及图纸

技术编号:37418875 阅读:19 留言:0更新日期:2023-04-30 09:42
本公开提供了一种音频编码器的预训练方法、音频检测方法及装置,包括:获取第一样本数据组,第一样本数据组中包括来源于同一多媒体资源的第一样本图像、第一样本文本以及样本音频;将第一样本图像输入至预先训练的目标图像编码器中,确定第一图像特征;将第一样本文本输入至预先训练的目标文本编码器中,确定第一文本特征;以及,将样本音频输入至待训练的初始音频编码器中,确定样本音频特征;将第一图像特征和第一文本特征进行融合,得到样本多模态特征;基于样本多模态特征和样本音频特征,对待训练的初始音频编码器进行训练,以基于训练后的目标音频编码器进行音频检测。练后的目标音频编码器进行音频检测。练后的目标音频编码器进行音频检测。

【技术实现步骤摘要】
音频编码器的预训练方法、音频检测方法及装置


[0001]本公开涉及人工智能
,具体而言,涉及一种音频编码器的预训练方法、音频检测方法及装置。

技术介绍

[0002]随着信息技术的发展,音频、图像、文本成为三种最主要的信息传播的方式,因此对于音频、图像、文本等信息的提取显得尤为重要。随着人工智能的发展,各种神经网络逐渐应用于各个领域中,当神经网络应用于信息提取时,往往先通过音频、图像、文本这三种模态中两两进行对比学习来进行模型的预训练,然而这种方法一方面需要大量的样本数据进行训练,训练速度较慢,另一反面,由于音频中往往包含大量的噪声,在进行对比学习时会无可避免的影响预训练模型的精度。

技术实现思路

[0003]本公开实施例至少提供一种音频编码器的预训练方法、音频检测方法及装置。
[0004]第一方面,本公开实施例提供了一种音频编码器的预训练方法,包括:
[0005]获取第一样本数据组,所述第一样本数据组中包括来源于同一多媒体资源的第一样本图像、第一样本文本以及样本音频;
[0006]将所述第一样本图像输入至预先训练的目标图像编码器中,确定第一图像特征;将所述第一样本文本输入至预先训练的目标文本编码器中,确定第一文本特征;以及,将所述样本音频输入至待训练的初始音频编码器中,确定样本音频特征;其中,所述目标图像编码器和所述目标文本编码器是基于对比学习训练得到的;
[0007]将所述第一图像特征和所述第一文本特征进行融合,得到样本多模态特征;
[0008]基于所述样本多模态特征和所述样本音频特征,对所述待训练的初始音频编码器进行训练,以基于训练后的目标音频编码器进行音频检测。
[0009]一种可选的实施方式中,所述基于训练后的目标音频编码器进行音频检测,包括:
[0010]基于所述目标音频编码器,构建包含所述目标音频编码器的音频检测模型;
[0011]基于样本音频对所述音频检测模型进行微调处理;
[0012]在获取待检测音频之后,基于微调处理后的音频检测模型,确定所述待检测音频对应的音频检测结果。
[0013]一种可选的实施方式中,所述方法还包括根据以下方法训练得到所述目标图像编码器和所述目标文本编码器:
[0014]获取第二样本数据组,所述第二样本数据组中包括来源于同一多媒体资源的第二样本图像和第二样本文本;
[0015]将所述第二样本图像输入至待训练的初始图像编码器中,确定所述第二样本图像对应的第二图像特征;以及,将所述第二样本文本输入至待训练的初始文本编码器中,确定所述第二样本文本对应的第二文本特征;
[0016]基于所述第二图像特征和所述第二文本特征确定特征相似度,并基于所述特征相似度对所述初始图像编码器和所述初始文本编码器进行训练,得到所述目标图像编码器和所述目标文本编码器。
[0017]一种可选的实施方式中,所述方法还包括根据以下方法确定所述多媒体资源:
[0018]获取多个待筛选多媒体资源;
[0019]基于所述待筛选多媒体资源的热度信息,从所述多个待筛选多媒体资源中确定所述多媒体资源。
[0020]一种可选的实施方式中,所述多媒体资源包括样本视频;
[0021]所述第一样本图像为对所述样本视频进行抽帧处理后得到的预设数量的抽帧图像;
[0022]所述第一样本文本为所述样本视频的标题;
[0023]所述样本音频为所述样本视频中预设长度的音频。
[0024]一种可选的实施方式中,所述将所述第一样本图像输入至预先训练的目标图像编码器中,确定第一图像特征,包括:
[0025]将所述预设数量的抽帧图像分别输入至所述目标图像编码器中,得到各抽帧图像分别对应的初始图像特征;
[0026]将所述各抽帧图像分别对应的初始图像特征进行融合,得到所述第一图像特征。
[0027]一种可选的实施方式中,所述第二样本数据组包括正样本对和负样本对;
[0028]所述方法还包括根据以下方法确定所述正样本对和所述负样本对:
[0029]获取多个来源于同一多媒体资源的第二样本图像和第二样本文本;
[0030]将来源于同一多媒体资源的第二样本图像和第二样本文本作为正样本对;将来源于不同多媒体资源的第二样本图像和第二样本文本进行组合,作为负样本对。
[0031]第二方面,本公开实施例还提供一种音频检测方法,包括:
[0032]获取待检测音频;
[0033]将所述待检测音频输入至基于第一方面,或第一方面任一种可能的实施方式所述的音频编码器的预训练方法训练得到的目标音频编码器中,确定所述待检测音频对应的音频特征;
[0034]基于所述音频特征确定所述待检测音频对应的音频检测结果。
[0035]第三方面,本公开实施例提供了一种音频编码器的预训练装置,包括:
[0036]第一获取模块,用于获取第一样本数据组,所述第一样本数据组中包括来源于同一多媒体资源的第一样本图像、第一样本文本以及样本音频;
[0037]特征提取模块,用于将所述第一样本图像输入至预先训练的目标图像编码器中,确定第一图像特征;将所述第一样本文本输入至预先训练的目标文本编码器中,确定第一文本特征;以及,将所述样本音频输入至待训练的初始音频编码器中,确定样本音频特征;其中,所述目标图像编码器和所述目标文本编码器是基于对比学习训练得到的;
[0038]融合模块,用于将所述第一图像特征和所述第一文本特征进行融合,得到样本多模态特征;
[0039]训练模块,用于基于所述样本多模态特征和所述样本音频特征,对所述待训练的初始音频编码器进行训练,以基于训练后的目标音频编码器进行音频检测。
[0040]一种可选的实施方式中,所述装置还包括检测模块,用于:
[0041]基于所述目标音频编码器,构建包含所述目标音频编码器的音频检测模型;
[0042]基于样本音频对所述音频检测模型进行微调处理;
[0043]在获取待检测音频之后,基于微调处理后的音频检测模型,确定所述待检测音频对应的音频检测结果。
[0044]一种可选的实施方式中,所述训练模块还用于根据以下方法训练得到所述目标图像编码器和所述目标文本编码器:
[0045]获取第二样本数据组,所述第二样本数据组中包括来源于同一多媒体资源的第二样本图像和第二样本文本;
[0046]将所述第二样本图像输入至待训练的初始图像编码器中,确定所述第二样本图像对应的第二图像特征;以及,将所述第二样本文本输入至待训练的初始文本编码器中,确定所述第二样本文本对应的第二文本特征;
[0047]基于所述第二图像特征和所述第二文本特征确定特征相似度,并基于所述特征相似度对所述初始图像编码器和所述初始文本编码器进行训练,得到所述目标图像编码器和所述目标文本编码器。
[0048]一种可选的实施方式中,所述第一获取模块还用于根据以下方法确定所述多媒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频编码器的预训练方法,其特征在于,包括:获取第一样本数据组,所述第一样本数据组中包括来源于同一多媒体资源的第一样本图像、第一样本文本以及样本音频;将所述第一样本图像输入至预先训练的目标图像编码器中,确定第一图像特征;将所述第一样本文本输入至预先训练的目标文本编码器中,确定第一文本特征;以及,将所述样本音频输入至待训练的初始音频编码器中,确定样本音频特征;其中,所述目标图像编码器和所述目标文本编码器是基于对比学习训练得到的;将所述第一图像特征和所述第一文本特征进行融合,得到样本多模态特征;基于所述样本多模态特征和所述样本音频特征,对所述待训练的初始音频编码器进行训练,以基于训练后的目标音频编码器进行音频检测。2.根据权利要求1所述的方法,其特征在于,所述基于训练后的目标音频编码器进行音频检测,包括:基于所述目标音频编码器,构建包含所述目标音频编码器的音频检测模型;基于样本音频对所述音频检测模型进行微调处理;在获取待检测音频之后,基于微调处理后的音频检测模型,确定所述待检测音频对应的音频检测结果。3.根据权利要求1所述的方法,其特征在于,所述方法还包括根据以下方法训练得到所述目标图像编码器和所述目标文本编码器:获取第二样本数据组,所述第二样本数据组中包括来源于同一多媒体资源的第二样本图像和第二样本文本;将所述第二样本图像输入至待训练的初始图像编码器中,确定所述第二样本图像对应的第二图像特征;以及,将所述第二样本文本输入至待训练的初始文本编码器中,确定所述第二样本文本对应的第二文本特征;基于所述第二图像特征和所述第二文本特征确定特征相似度,并基于所述特征相似度对所述初始图像编码器和所述初始文本编码器进行训练,得到所述目标图像编码器和所述目标文本编码器。4.根据权利要求1或3所述的方法,其特征在于,所述方法还包括根据以下方法确定所述多媒体资源:获取多个待筛选多媒体资源;基于所述待筛选多媒体资源的热度信息,从所述多个待筛选多媒体资源中确定所述多媒体资源。5.根据权利要求1所述的方法,其特征在于,所述多媒体资源包括样本视频;所述第一样本图像为对所述样本视频进行抽帧处理后得到的预设数量的抽帧图像;所述第一样本文本为所述样本视频的标题;所述样本音频为所述样本视频中预设长度的音频。6.根据权利要求5所述的方法,其特征在于,所述将所述第一样本图像输入至预先训练的目标图像编码器中,确定第一图像特征,包括:将所述预设数量的抽帧图像分别输入至所述目标图像编码器中,得到各抽帧图像分别对应的初始图像特征;
将所述各抽帧图像...

【专利技术属性】
技术研发人员:马航航杜正印袁泽寰卢靓妮
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1