编码器的生成方法、指纹提取方法、介质及电子设备技术

技术编号:33348663 阅读:30 留言:0更新日期:2022-05-08 09:49
本公开涉及一种编码器的生成方法、指纹提取方法、介质及电子设备,所述编码器的生成方法包括:获取多个样本音频;根据所述多个样本音频构造第一组样本以及第一组样本,其中,针对所述第一组样本中的每一条样本,在所述第一组样本中均存在对应的正样本以及负样本;根据所述第一组样本和所述第一组样本对于第一编码器以及第二编码器进行对比训练,训练完成的所述第一编码器能够作为音频指纹提取器输出作为音频的指纹特征的编码向量。本公开得到的训练完成的第一编码器能有效提取音频的指纹特征,得到更准确的音频指纹,进而提高音频检索的准确度。索的准确度。索的准确度。

【技术实现步骤摘要】
编码器的生成方法、指纹提取方法、介质及电子设备


[0001]本公开涉及人工智能
,具体地,涉及一种编码器的生成方法、指纹提取方法、介质及电子设备。

技术介绍

[0002]音频指纹是从音频内容中提取出的代表一条音频重要声学信息的紧致数字签名。音频指纹为音频提供了一种唯一性的表示,通过音频指纹可以有效地将一条音频和其他音频区分开来。相关技术中,使用长短期记忆的自动编码器为音频生成音频指纹,并利用该音频指纹完成音频检索任务,例如,从曲库中检索出与该音频相关的其他音频。然而,针对失真音频,通过自动编码器生成的音频指纹无法有效表示该音频,进而降低了音频检索的准确率,无法有效地完成音频检索任务。

技术实现思路

[0003]提供该部分内容以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该部分内容并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
[0004]第一方面,本公开提供一种编码器的生成方法,包括:
[0005]获取多个样本音频;
[0006]根据所述多个样本音频构造第一组样本以及第一组样本,其中,针对所述第一组样本中的每一条样本,在所述第一组样本中均存在对应的正样本以及负样本;
[0007]根据所述第一组样本和所述第一组样本对于第一编码器以及第二编码器进行对比训练,训练完成的所述第一编码器能够作为音频指纹提取器输出作为音频的指纹特征的编码向量;
[0008]其中,所述第一编码器用于对所述第一组样本中的样本进行编码,得到对应每一条样本的第一编码向量,所述第二编码器用于对所述第一组样本中的样本进行编码,得到对应每一条样本的第二编码向量;所述对比训练用于使所述第一编码器输出的第一编码向量接近对应的所述正样本的第二编码向量,远离对应的所述负样本的第二编码向量,且所述第二编码器的编码参数逐渐趋向所述第一编码器的编码参数。
[0009]第二方面,本公开提供一种音频指纹提取方法,包括:
[0010]获取待查询音频;
[0011]根据音频指纹提取器对所述待查询音频进行处理,得到作为所述待查询音频的指纹特征的编码向量;所述音频指纹提取器是根据第一方面所述的编码器的生成方法训练完成的第一编码器。
[0012]第三方面,本公开提供一种编码器的生成装置,包括:
[0013]第一获取模块,被配置为获取多个样本音频;
[0014]构造模块,被配置为根据所述多个样本音频构造第一组样本以及第一组样本,其
中,针对所述第一组样本中的每一条样本,在所述第一组样本中均存在对应的正样本以及负样本;
[0015]训练模块,被配置为根据所述第一组样本和所述第一组样本对于第一编码器以及第二编码器进行对比训练,训练完成的所述第一编码器能够作为音频指纹提取器输出作为音频的指纹特征的编码向量;
[0016]其中,所述第一编码器用于对所述第一组样本中的样本进行编码,得到对应每一条样本的第一编码向量,所述第二编码器用于对所述第一组样本中的样本进行编码,得到对应每一条样本的第二编码向量;所述对比训练用于使所述第一编码器输出的第一编码向量接近对应的所述正样本的第二编码向量,远离对应的所述负样本的第二编码向量,且所述第二编码器的编码参数逐渐趋向所述第一编码器的编码参数。
[0017]第四方面,本公开提供一种音频指纹提取装置,包括:
[0018]第二获取模块,被配置为获取待查询音频;
[0019]处理模块,被配置为根据音频指纹提取器对所述待查询音频进行处理,得到作为所述待查询音频的指纹特征的编码向量;所述音频指纹提取器是根据第一方面所述的编码器的生成方法训练完成的第一编码器。
[0020]第五方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面和第二方面所述方法的步骤。
[0021]第六方面,本公开提供一种电子设备,包括:
[0022]存储装置,其上存储有至少一个计算机程序;
[0023]至少一个处理装置,用于执行所述存储装置中的所述至少一个计算机程序,以实现第一方面和第二方面所述方法的步骤。
[0024]通过上述技术方案,通过对比训练的方式,使第一编码器输出的第一编码向量接近对应的正样本的第二编码向量,远离对应的负样本的第二编码向量,即使得第一编码器输出的编码向量能更有效地区分与其属于同一个音频的音频以及与其不属于同一个音频的音频,且对比训练使得第一编码器能学习到音频的更高层次的特征。进而训练得到的作为音频指纹提取器的第一编码器输出的音频指纹(即输出的音频的指纹特征的编码向量)能更好地完成音频检索任务,提高了音频检索的准确度。
[0025]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0026]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
[0027]图1是根据本公开一示例性实施例示出的一种编码器的生成方法的流程图。
[0028]图2是根据本公开一示例性实施例示出的对第一编码器以及第二编码器进行对比训练的流程图。
[0029]图3是根据本公开一示例性实施例示出的一种音频指纹提取方法的流程图。
[0030]图4是根据本公开一示例性实施例示出的一种编码器的生成装置的框图。
[0031]图5是根据本公开一示例性实施例示出的一种音频指纹提取装置的框图。
[0032]图6是根据本公开一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
[0033]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0034]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0035]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0036]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0037]需要注意,本公开中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种编码器的生成方法,其特征在于,包括:获取多个样本音频;根据所述多个样本音频构造第一组样本以及第一组样本,其中,针对所述第一组样本中的每一条样本,在所述第一组样本中均存在对应的正样本以及负样本;根据所述第一组样本和所述第一组样本对于第一编码器以及第二编码器进行对比训练,训练完成的所述第一编码器能够作为音频指纹提取器输出作为音频的指纹特征的编码向量;其中,所述第一编码器用于对所述第一组样本中的样本进行编码,得到对应每一条样本的第一编码向量,所述第二编码器用于对所述第一组样本中的样本进行编码,得到对应每一条样本的第二编码向量;所述对比训练用于使所述第一编码器输出的第一编码向量接近对应的所述正样本的第二编码向量,远离对应的所述负样本的第二编码向量,且所述第二编码器的编码参数逐渐趋向所述第一编码器的编码参数。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本音频构造第一组样本以及第一组样本,包括:对多个所述样本音频分别进行第一参数调整以及第二参数调整,得到所述第一组样本以及所述第一组样本,所述第一参数调整和所述第二参数调整对应的调整参数和/或调整方式不完全相同;其中,所述第一组样本中的每一条样本为经过所述第一参数调整后的样本音频,所述第一组样本中的每一条样本为经过所述第二参数调整后的样本音频,针对所述第一组样本中的每一条样本,所述第一组样本中与该样本对应相同样本音频的样本为正样本,其他样本为负样本。3.根据权利要求2所述的方法,其特征在于,所述调整参数包括但不限于以下的至少一种:噪声、音高、速度、滤波参数、回声、增益或衰减的频段、以及音频格式。4.根据权利要求1所述的方法,其特征在于,所述根据所述第一组样本和所述第一组样本对于第一编码器以及第二编码器进行对比训练,包括:根据所述第一编码器对所述第一组样本中的样本进行编码,得到对应每一条样本的第一编码向量,以及根据所述第二编码器对所述第一组样本的样本进行编码,得到对应每一条样本的第二编码向量;基于所述第一编码向量和所述第二编码向量对对比损失函数的损失值进行迭代运算,并基于所述损失值迭代更新所述第一编码器的编码参数,以使所述第一编码器输出的所述第一编码向量接近对应的所述正样本的所述第二编码向量,远离对应的所述负样本的所述第二编码向量,其中,所述损失值用于表征所述第一编码向量以及所述第二编码向量之间的相似度;并,使所述第二编码器的编码参数逐渐趋向所述第一编码器的所述编码参数,直到得到训练完成的所述第一编码器。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一编码向量和所述第二编码向量对对比损失函数的损失值进行迭代运算,...

【专利技术属性】
技术研发人员:于哲松杜行健刘铭瑀朱碧磊马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1