音频指纹的生成方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:38345913 阅读:12 留言:0更新日期:2023-08-02 09:26
本申请适用于计算机技术领域,提供了一种音频指纹的生成方法、装置、电子设备和可读存储介质。其中,上述音频指纹的生成方法包括:获取目标时长的待处理媒体文件;根据待处理媒体文件,确定目标时长内人声部分所在的目标时间段;对目标时间段和目标时长内的其他时间段分别以不同的标识进行编码,得到音频指纹,音频指纹用于对媒体文件与其他文件进行匹配。本申请的实施例可以提高媒体文件与字幕文件进行匹配时的准确性。匹配时的准确性。匹配时的准确性。

【技术实现步骤摘要】
音频指纹的生成方法、装置、电子设备和可读存储介质


[0001]本申请属于计算机
,尤其涉及一种音频指纹的生成方法、装置、电子设备和可读存储介质。

技术介绍

[0002]字幕匹配是将字幕文件与音频、视频等媒体文件进行匹配的技术。通过字幕匹配,播放器可以在播放音频、视频的过程中为用户显示对应的字幕。
[0003]相关技术中,字幕匹配通常是通过字幕文件的名称、时长等属性信息与媒体文件的名称、时长等属性信息进行匹配的。一些情况下,用户可以对媒体文件的属性信息进行更改,导致将媒体文件与字幕文件进行匹配时准确性较低。

技术实现思路

[0004]本申请实施例提供一种音频指纹的生成方法、装置、电子设备和可读存储介质,可以解决相关技术中将媒体文件与字幕文件进行匹配时准确性较低的问题。
[0005]本申请实施例第一方面提供一种音频指纹的生成方法,包括:获取目标时长的待处理媒体文件;根据所述待处理媒体文件,确定所述目标时长内人声部分所在的目标时间段;对所述目标时间段和所述目标时长内的其他时间段分别以不同的标识进行编码,得到所述音频指纹,所述音频指纹用于对所述媒体文件与其他文件进行匹配。
[0006]本申请实施例第二方面提供的一种音频指纹的生成装置,包括:文件获取单元,用于获取目标时长的待处理媒体文件;时间段分析单元,用于根据所述待处理媒体文件,确定所述目标时长内人声部分所在的目标时间段;生成单元,用于对所述目标时间段和所述目标时长内的其他时间段分别以不同的标识进行编码,得到所述音频指纹,所述音频指纹用于对所述媒体文件与其他文件进行匹配。
[0007]本申请实施例第三方面提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述音频指纹的生成方法的步骤。
[0008]本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述音频指纹的生成方法的步骤。
[0009]本申请实施例第五方面提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中所述的音频指纹的生成方法。
[0010]在本申请的实施方式中,通过根据目标时长的待处理媒体文件,确定目标时长内人声部分所在的目标时间段,并对人声部分所在的目标时间段和目标时长内的其他时间段分别以不同的标识进行编码,得到音频指纹,使得音频指纹能够描述待处理媒体文件中人声部分的分布情况,进而将音频指纹用于对待处理媒体文件与其他文件进行匹配时,可以依据人声部分的分布情况进行匹配,提高了媒体文件与其他文件(如字幕文件)进行匹配时
的准确性。
附图说明
[0011]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0012]图1是本申请实施例提供的一种音频指纹的生成方法的实现流程示意图;
[0013]图2是本申请实施例提供的人声分离的具体实现流程示意图;
[0014]图3是本申请实施例提供的进行采样点和时间段的匹配的具体实现流程示意图;
[0015]图4是本申请实施例提供的根据每个采样点的振幅,确定目标时间段的具体实现流程示意图;
[0016]图5是本申请实施例提供的一种音频指纹的生成装置的结构示意图;
[0017]图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护。
[0019]相关技术中,字幕匹配通常是通过字幕文件的名称、时长等属性信息与媒体文件的名称、时长等属性信息进行匹配。一些情况下,用户可以对媒体文件的属性信息进行更改,导致将媒体文件与字幕文件进行匹配时准确性较低。
[0020]鉴于此,本申请提出一种音频指纹的生成方法,能够通过音频指纹表征媒体文件中人声部分的分布情况,进而在通过音频指纹进行媒体文件与其他文件(如字幕文件)的匹配时,可以参考人声部分的分布情况进行匹配,避免了因用户更改属性信息而导致的误匹配问题,提高匹配的准确性。
[0021]为了说明本申请的技术方案,下面通过具体实施例来进行说明。
[0022]图1示出了本申请实施例提供的一种音频指纹的生成方法的实现流程示意图,该方法可以应用于电子设备上,可适用于需提高将媒体文件与其他文件进行匹配时的准确性的情形。
[0023]在本申请的实施方式中,上述电子设备可以为计算机、手机、车载设备、音视频播放设备(或称为播放器)等智能设备,对此本申请不做限制。
[0024]具体的,上述音频指纹的生成方法可以包括以下步骤S101至步骤S103。
[0025]步骤S101,获取目标时长的待处理媒体文件。
[0026]其中,待处理媒体文件为需要提取音频指纹的媒体文件,具体可以为视频文件、音频文件或其他具有音频流的媒体文件。目标时长为待处理媒体文件对应的总时长。
[0027]在本申请的实施方式中,待处理媒体文件中的音频可以包括人声部分和非人声部分(或称为背景声部分)。以歌曲(音频)文件为例,人声部分以外的如前奏、间奏、尾奏部分
属于非人声部分。
[0028]在本申请的实施方式中,电子设备可以将用户在电子设备上选中的媒体文件作为待处理媒体文件,也可以在需要为网络上的媒体文件进行比对时,下载需要比对的媒体文件,得到待处理媒体文件。对于待处理媒体文件的获取方式,本申请不做限制。
[0029]步骤S102,根据待处理媒体文件,确定目标时长内人声部分所在的目标时间段。
[0030]在本申请的一些实施方式中,上述待处理媒体文件可以包含音频流,电子设备可以提取待处理媒体文件中的音频流,以确定目标时长内人声部分所在的目标时间段。例如,当上述待处理媒体文件为视频文件时,电子设备可以读取视频文件里的帧数据,保留音频包(即音频流),并丢弃视频包、字幕包及其他类型的数据包。
[0031]具体的,目标时长可以被划分成一个或多个时间段。时间段的划分方式可以为均等划分或其他特定划分方式,对此本申请不做限制。电子设备基于音频流中每个时间段内的振幅、音色等参数,可以分析每个时间段内的音频流为人声部分还是非人声部分,进而可以确认人声部分所在的目标时间段。
[0032]步骤S103,对目标时间段和目标时长内的其他时间段分别以不同的标识进行编码,得到音频指纹。
[0033]其中,其他时间段为目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频指纹的生成方法,其特征在于,包括:获取目标时长的待处理媒体文件;根据所述待处理媒体文件,确定所述目标时长内人声部分所在的目标时间段;对所述目标时间段和所述目标时长内的其他时间段分别以不同的标识进行编码,得到所述音频指纹,所述音频指纹用于对所述待处理媒体文件与其他文件进行匹配。2.如权利要求1所述的音频指纹的生成方法,其特征在于,所述根据所述待处理媒体文件,确定所述目标时长内人声部分所在的目标时间段,包括:对所述待处理媒体文件进行解析,得到所述目标时长内各个采样点的振幅;根据每个所述采样点的振幅,确定所述目标时长内的所述目标时间段。3.如权利要求1所述的音频指纹的生成方法,其特征在于,所述根据所述待处理媒体文件,确定所述目标时长内人声部分所在的目标时间段,包括:对所述待处理媒体文件进行人声分离,得到人声部分的音频数据;根据所述音频数据,确定所述目标时长内的所述目标时间段。4.如权利要求3所述的音频指纹的生成方法,其特征在于,所述对所述待处理媒体文件进行人声分离,得到人声部分的音频数据,包括:对所述待处理媒体文件进行解码,得到初始调制数据,所述初始调制数据记录有每个所述采样点的振幅;对所述初始调制数据进行人声分离,得到所述音频数据。5.如权利要求4所述的音频指纹的生成方法,其特征在于,在所述对所述待处理媒体文件进行解码,得到初始调制数据之后,包括:对所述初始调制数据进行预处理,得到预处理后的调制数据,其中,所述预处理后的调制数据的采样频率、位深,以及振幅的幅值范围中的至少一项满足人声分离所需的分离条件;所述对所述待处理媒体文件进行人声分离,得到所述音频数据,包括:对所述预处理后的调制数据进行人声分离,得到所述音频数据。6....

【专利技术属性】
技术研发人员:易正宏邓志明
申请(专利权)人:迅雷计算机深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1