音视频数据处理方法、系统、电子设备及存储介质技术方案

技术编号:25044249 阅读:21 留言:0更新日期:2020-07-29 05:34
本发明专利技术提供一种音视频数据处理方法、系统、电子设备及存储介质,所述音视频数据处理方法包括获取第一数据集,所述第一数据集包括若干数据对,所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元;构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征;利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型,以对所述多路特征提取网络模型进行训练;构建分类器以判断输入的待判断音视频数据对是否匹配。利用本发明专利技术,能够利用互联网上广泛存在的无标签音视频数据,不依赖需要耗费大量人力物力的有标签数据,扩宽了音视频协同学习的方法。

【技术实现步骤摘要】
音视频数据处理方法、系统、电子设备及存储介质
本专利技术涉及多模态数据特征学习
,特别涉及一种音视频数据处理方法、系统、电子设备及存储介质。
技术介绍
如今的信息时代,互联网上每时每刻都有大量新的数据产生,并且这些数据呈现出多种形式,例如文字、图片、音频、视频等等,因此需要一些方法能够去挖掘这些多模态数据间隐藏的共性信息。在这些数据形式中,视觉信息和听觉信息是两种极为重要的信息,它们之间存在着自然的联系,例如狗的声音和描述狗的画面都反映了狗这个物体,当人听到狗叫声时,脑海中就能联想到狗的样子。这种具有联系的音视频数据大量存在,视频中的视觉信息和听觉信息就是一一对应的。因此我们希望也赋予机器这样的能力,这就需要一种方法能够学习到那些相互对应的视觉信息和听觉信息之间的联系,进而以一种音视频协同学习的方式去结合二者的有效信息,以此来解决一些依赖于多模态信息的实际问题。目前的一些音视频协同学习方法中,大都需要结合有标签的数据才能够有比较好的效果,但是数据标签的获取需要耗费大量的人力物力,面对互联网上海量的无标签数据,这种方式显然是低效和不可取的。此外,如果需要建立音视频数据特征之间的联系,就要学习到特定的特征信息,例如描述狗的图片中,狗就是我们需要的信息,其他的背景信息就是一些无效的噪声信息,音频数据单元同样是如此。因此需要一种能够从数据本身发现潜在规律并且能够剔除无用的噪声信息的方法来处理这些无标签数据,从而能够扩宽音视频协同学习的适用范围。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种音视频数据处理方法、系统、电子设备及存储介质,用于解决现有技术中音视频协同学习方法不适合无标签数据的技术问题。为实现上述目的及其他相关目的,本专利技术提供一种音视频数据处理方法,所述音视频数据处理方法包括:获取第一数据集,所述第一数据集包括若干数据对,所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元;构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征;利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型,以对所述多路特征提取网络模型进行训练;构建分类器以判断输入的待判断音视频数据对是否匹配。在一可选实施例中,所述构建分类器以判断输入的待判断音视频数据对是否匹配的步骤包括:获取第二数据集,所述第二数据集包括若干数据对,所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元,以及两者的匹配与否值;利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征;将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合,以获取所述第二数据集中的每个所述数据对的融合特征;构建所述分类器,并利用所述融合特征对所述分类器进行训练;利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。在一可选实施例中,所述利用所述融合特征对所述分类器进行训练的步骤包括,以所述融合特征作为所述分类器的输入,再结合预设损失函数模型对所述分类器进行训练。在一可选实施例中,所述预设损失函数模型的表达式为:其中,yj=1表示zconcat是由所述第二数据集中的匹配数据对得到的融合特征,yj=0表示zconcat是由所述第二数据集中的不匹配数据对得到的融合特征,θc是分类器网络模型的参数,N是所述第二数据集中的数据对的个数。在一可选实施例中,所述构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征的步骤包括,构建视觉特征提取网络模型和听觉特征提取网络模型,以分别提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征。在一可选实施例中,所述视觉特征提取网络模型由依次连接的三维卷积层、二维卷积层和全连接层构成。在一可选实施例中,所述听觉特征提取网络模型由依次连接的多个卷积层和全连接层构成。在一可选实施例中,所述利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数,以对所述多路特征提取网络模型进行训练的步骤包括:对于所述第一数据集中的数据,选取与每个所述视频帧序列单元对应的所述音频数据单元构成正例对,选取与每个所述视频帧序列单元不对应的多个所述音频数据单元构成负例对,以构成第三数据集;根据提取出的所述视觉特征和所述听觉特征构建评价函数模型,以使所述正例对的取值较大,而负例对的取值较小;根据所述评价函数模型构建所述对比编码损失函数模型,并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。在一可选实施例中,根据所述评价函数模型构建所述对比编码损失函数模型,并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练的步骤包括:对构建的所述对比编码损失函数模型进行近似处理;利用近似处理后的所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。为实现上述目的及其他相关目的,本专利技术还提供一种音视频数据处理系统,包括:第一数据集获取单元,用于获取第一数据集,所述第一数据集包括若干第一音视频数据对,每个所述第一音视频数据对包括相互匹配的视频帧序列单元和音频数据单元;特征提取网络模型构建单元,用于构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征;特征提取网络模型训练单元,用于利用提取出的所述视觉特征和所述听觉特征,构建对比编码损失函数以对所述多路特征提取网络模型进行训练;分类器构建判定单元,用于构建分类器以判断输入的待判断音视频数据对是否匹配。在一可选实施例中,所述分类器构建判定单元包括:第二数据集获取子单元,用于获取第二数据集,所述第二数据集包括若干数据对,所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元,以及两者的匹配与否值;特征提取子单元,用于利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征;特征融合子单元,用于将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合,以获取所述第二数据集中的每个所述数据对的融合特征;分类器构建子单元,用于构建所述分类器,并利用所述融合特征对所述分类器进行训练;判定子单元,用于利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。在一可选实施例中,所述分类器构建子单元还用于以所述融合特征作为所述分类器的输入,再结合预设损失函数模型对所述分类器进行训练。在一可选实施例中,所述预设损失函数模型的表达式为:其中,zxo本文档来自技高网...

【技术保护点】
1.一种音视频数据处理方法,其特征在于,所述数据处理方法包括以下步骤:/n获取第一数据集,所述第一数据集包括若干数据对,所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元;/n构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征;/n利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型,以对所述多路特征提取网络模型进行训练;/n构建分类器以判断输入的待判断音视频数据对是否匹配。/n

【技术特征摘要】
1.一种音视频数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
获取第一数据集,所述第一数据集包括若干数据对,所述第一数据集中的每个所述数据对包括相互匹配的视频帧序列单元和音频数据单元;
构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征;
利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数模型,以对所述多路特征提取网络模型进行训练;
构建分类器以判断输入的待判断音视频数据对是否匹配。


2.根据权利要求1所述的音视频数据处理方法,其特征在于,所述构建分类器以判断输入的待判断音视频数据对是否匹配的步骤包括:
获取第二数据集,所述第二数据集包括若干数据对,所述第二数据集中的每个所述数据对包括视频帧序列单元和音频数据单元,以及两者的匹配与否值;
利用训练好的所述多路特征提取网络模型分别提取出所述第二数据集中的每个所述数据对的所述视频帧序列单元的视觉特征和所述音频数据单元的听觉特征;
将所述第二数据集中的每个所述数据对的所述视觉特征和所述听觉特征进行融合,以获取所述第二数据集中的每个所述数据对的融合特征;
构建所述分类器,并利用所述融合特征对所述分类器进行训练;
利用训练好的所述分类器判断输入的所述待判断音视频数据对是否匹配。


3.根据权利要求2所述的音视频数据处理方法,其特征在于,所述利用所述融合特征对所述分类器进行训练的步骤包括,以所述融合特征作为所述分类器的输入,再结合预设损失函数模型对所述分类器进行训练。


4.根据权利要求2所述的音视频数据处理方法,其特征在于,所述预设损失函数模型的表达式为:



其中,yj=1表示zconcat是由所述第二数据集中的匹配数据对得到的融合特征,yj=0表示zconcat是由所述第二数据集中的不匹配数据对得到的融合特征,θc是分类器网络模型的参数,N是所述第二数据集中的数据对的个数。


5.根据权利要求1所述的音视频数据处理方法,其特征在于,所述构建多路特征提取网络模型,以提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征的步骤包括,构建视觉特征提取网络模型和听觉特征提取网络模型,以分别提取出所述第一数据集中每个所述视频帧序列单元的视觉特征和每个所述音频数据单元的听觉特征。


6.根据权利要求5所述的音视频数据处理方法,其特征在于,所述视觉特征提取网络模型由依次连接的三维卷积层、二维卷积层和全连接层构成。


7.根据权利要求5所述的音视频数据处理方法,其特征在于,所述听觉特征提取网络模型由依次连接的多个卷积层和全连接层构成。


8.根据权利要求1-7中任意一项所述的音视频数据处理方法,其特征在于,所述利用提取出的所述视觉特征和所述听觉特征构建对比编码损失函数,以对所述多路特征提取网络模型进行训练的步骤包括:
对于所述第一数据集中的数据,选取与每个所述视频帧序列单元对应的所述音频数据单元构成正例对,选取与每个所述视频帧序列单元不对应的多个所述音频数据单元构成负例对,以构成第三数据集;
根据提取出的所述视觉特征和所述听觉特征构建评价函数模型,以使所述正例对的取值较大,而负例对的取值较小;
根据所述评价函数模型构建所述对比编码损失函数模型,并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。


9.根据权利要求8所述的音视频数据处理方法,其特征在于,根据所述评价函数模型构建所述对比编码损失函数模型,并利用所述对比编码损失函数模型对所述多路特征提取网络模型进行训练的步骤包括:
对构建的所述对比编码损失函数模型进行近似处理;
利用近似处理后的所述对比编码损失函数模型对所述多路特征提取网络模型进行训练。


10.一种音视频数据处理系统,其特征在于,包括:
第一数据集获取单元,用于获取第一数据集,所述第一数据集包括若干第一音视频数据对,每个所述第一音视频数据对包括相互匹配的视频帧序列单元和音频数据单元;
特...

【专利技术属性】
技术研发人员:陈雁翔檀华东赵鹏铖武广
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1