音频指纹提取和建库方法、及音频识别和检索方法与系统技术方案

技术编号:29277833 阅读:19 留言:0更新日期:2021-07-16 22:54
公开了一种音频指纹提取和建库方法,以及相应的身份识别以及音频检索方法和系统。该音频指纹提取方法,包括:获取音频的频谱;基于频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对;基于峰值点对生成所述音频的音频指纹。音频指纹可以包括常规指纹、旋律指纹、伴奏指纹以及旋律伴奏联合指纹。提取的音频指纹可以用于音频身份识别和音频检索库的建立,以方便对待定或查询音频的身份判定。以方便对待定或查询音频的身份判定。以方便对待定或查询音频的身份判定。

Audio fingerprint extraction and database building method, audio recognition and retrieval method and system

The invention discloses an audio fingerprint extraction and database building method, and a corresponding identification and audio retrieval method and system. The audio fingerprint extraction method includes: acquiring the frequency spectrum of the audio; Based on the frequency time relationship between the reference peak point and other peak points in the spectrum, the peak point pair is generated; An audio fingerprint of the audio is generated based on a pair of peak points. Audio fingerprints can include conventional fingerprints, melody fingerprints, accompaniment fingerprints and melody accompaniment fingerprints. The extracted audio fingerprint can be used for audio identification and the establishment of audio retrieval database to facilitate the identification of pending or query audio. In order to facilitate the identification of pending or query audio. In order to facilitate the identification of pending or query audio< br/>

【技术实现步骤摘要】
音频指纹提取和建库方法、及音频识别和检索方法与系统


[0001]本公开涉及一种音频处理领域,尤其设置一种音频指纹提取和建库方法,以及相应的音频识别和检索方法与系统。

技术介绍

[0002]随着数字技术和音乐市场的发展,每个音乐流媒体服务商所拥有的曲库(音频库)也变得越来越大。例如,一个成熟的商用曲库可能包括千万级的音乐数据。为此,需要一种能够以相对精简的方式描述音乐数据的方法,例如,音频指纹。为每个音频提取的音频指纹可以被放入音频指纹库中,用以对输入音频进行匹配与检索,例如,音乐播放App对应的“听歌识曲”功能。
[0003]面对百万甚至千万级的音乐数据,如何准确且高效地描述音乐数据,如何快速进行音频检索和匹配,成为了本领域内的一大难题。

技术实现思路

[0004]本公开要解决的一个技术问题是提供一种改进的音频指纹提取方案,进而提供一种基于上述提取指纹的建库方案,建立的音频指纹库可用于与客户端的交互以实现音频检索功能。
[0005]根据本公开的第一方面,提供了一种音频指纹提取方法,包括:获取音频的频谱;基于频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对;基于峰值点对生成所述音频的音频指纹。
[0006]根据本公开的第二方面,提供了一种音频指纹库建立方法,包括:获取曲库内的音频;根据本公开第一方面所述的方法,提取获取音频的音频指纹;以及将提取的音频指纹进行排序。
[0007]根据本公开的第三方面,提供了一种音频检索方法,包括:获取查询音频;提取所述查询音频的查询音频指纹;将所述查询音频指纹送入根据本公开第二方面建立的音频指纹库;基于所述音频指纹库进行音频指纹的匹配;以及基于音频指纹的匹配,返回音频检索结果。
[0008]根据本公开的第四方面,提供了一种音频识别方法,包括:根据本公开第一方面所述的方法,提取目标音频的音频指纹;以及基于所述音频指纹,判定音频身份。
[0009]根据本公开的第五方面,提供了一种音频检索系统,包括客户端,服务器和音频指纹库,其中,所述客户端用于:获取用户输入的查询音频,所述服务器用于:将从查询音频提取的查询音频指纹输入所述音频指纹库进行匹配;以及基于音频指纹的匹配,向所述用户返回音频检索结果,其中,查询音频和音频指纹库中音频的音频指纹基于如下操作生成:基于音频的频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对;基于峰值点对生成对应音频的音频指纹。
[0010]由此,本专利技术的音频指纹提取方案能够提取出精准描述且易于检索的音频指纹,
上述音频指纹还可以进行旋律与伴奏的分类,从而为以此建立的音频指纹库提供更为丰富的指纹素材,并为后续的指纹检索提供了更多的检索方式。另外,建立的指纹库可以按照音频热度进行分片,以便在后续提供冷热分离式的高效检索。
附图说明
[0011]通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0012]图1示出了根据本专利技术一个实施例的音频指纹提取方法的示意性流程图。
[0013]图2示出了哈希时间对生成的一个例子。
[0014]图3示出了根据本专利技术一个实施例的音频指纹库建立方法的示意性流程图。
[0015]图4示出了根据本专利技术一个实施例的音频检索方法的示意性流程图。
[0016]图5示出了根据本专利技术进行音频检索的示意图。
[0017]图6示出了可以实现本专利技术音频检索功能的音频检索系统的组成示意图。
[0018]图7示出了服务端内部配置的一个例子。
[0019]图8示出了应用本专利技术的音乐检索的一个具体场景例。
具体实施方式
[0020]下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0021]一个成熟的商用曲库可能包括千万级的音乐数据。为此,需要一种能够以相对精简的方式描述音乐数据的方式,例如,使用音频指纹。在此,音频指纹指代基于音频内容计算出来的极精简的可以概括该音频内容本身的数据片段。可以从曲库的音频文件里,通过算法的手段提取出每个音频的音频指纹。这些提取的音频指纹随后可以被放入统一的音频指纹库中,用以对输入音频进行匹配与检索。例如,音乐播放App的“听歌识曲”功能可以针对一个用户输入的音频片段,找到该片段属于曲库里的哪段音频。面对百万甚至千万级的音乐数据,如何准确且高效地描述音乐数据,如何快速进行音频检索和匹配,成为了本领域内的一大难题。
[0022]为此,本方面提出了一种改进的的音频指纹提取方案,进而提供一种基于上述提取指纹的建库方案,建立的音频指纹库可用于与客户端的交互以实现音频检索功能。本专利技术的音频指纹提取方案能够提取出精准描述且易于检索的音频指纹,上述音频指纹还可以是从音频中提取的旋律和/或伴奏的指纹,从而为以此建立的音频指纹库提供更为丰富的指纹素材,并为后续的指纹检索提供了更多的检索方式。另外,建立的指纹库可以按照音频热度进行分片,以便在后续提供冷热分离式的高效检索。
[0023]图1示出了根据本专利技术一个实施例的音频指纹提取方法的示意性流程图。在一个实施例中,上述音频指纹提取方法可以是音频指纹库建立操作的一部分,例如,针对曲库中的每首音频进行基于该方法的音频指纹提取。在其他实施例中,上述音频指纹提取方法也
可用于后续音频检索的操作,即,针对给定的音频片段进行指纹提取,用于与已建立的音频指纹库中的现有指纹进行匹配。
[0024]在步骤S110,获取音频的频谱。在一个实施例中,为了建立针对曲库的音频指纹库,可以逐条或者按照规定顺序获取曲库内的音乐数据(音频),对该音频信号进行预处理(例如,包括傅里叶变换)并获取音频频谱。在另一个实施例中,对于用于检索的音频片段,也进行预处理以得到音频频谱。
[0025]随后在步骤S120,基于频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对。在步骤S130,基于峰值点对生成所述音频的音频指纹。由此,通过频谱中锚点和其他重要点之间的时间频率分布来表示音频的特征。
[0026]在此,峰值点对可以由包括哈希值和参考峰值点时间的哈希时间对(hash-time对)表征。哈希值表示参考峰值点与其他峰值点的频率时间关系。上述哈希值可以作为峰值点对匹配的键(key)。在后续的音频指纹库构造中,可以将音频指纹库构造成哈希表。哈希表包括由key(键)和value(值)组成的entry(项),一个哈希表中可以包括多个项。哈希表是根据键(key)可以直接访问在内存存储位置的数据结构,由此方便后续基于哈希值的直接访问和匹配。在本专利技术中,可以将哈希时间对中的哈希值作为哈希表的key,每一个key都附带一个v本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频指纹提取方法,包括:获取音频的频谱;基于频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对;基于峰值点对生成所述音频的音频指纹。2.如权利要求1所述的方法,还包括:提取所述音频的旋律信息,其中,获取音频的频谱包括:将所述旋律信息进行变换以获取旋律频谱,并且所述方法基于所述旋律频谱生成基于旋律峰值点对的音频旋律指纹。3.如权利要求2所述的方法,其中,所述旋律信息包括人声信息,其中,获取音频的频谱包括:将所述人声信息进行变换以获取人声频谱,并且所述方法基于所述人声频谱生成基于人声峰值点对的音频人声指纹。4.如权利要求2所述的方法,还包括:提取所述音频的伴奏信息,其中,获取音频的频谱包括:将所述伴奏信息进行傅里叶变换,以获取伴奏频谱,并且所述方法还包括:基于所述伴奏频谱生成基于伴奏峰值点对的音频伴奏指纹。5.如权利要求2所述的方法,还包括:基于旋律频谱内参考旋律峰值点与其他旋律峰值点以及伴奏频谱内其他伴奏峰值点之间的频率时间关系,生成旋律伴奏联合峰值点对;以及基于所述旋律伴奏联合峰值点对生成所述音频的音频旋律伴奏联合指纹。6.一种音频指纹库建立方法,包括:获取曲库内的音频;根据权利要求1-5中任一项所述的方法,提取获取音频的音频指纹;以及将提取的音频指纹进行排序。7.如权利要求6所述的方法,其中,将所述音频指纹进行排序包括:将所述音频指纹按照音频的热度进行排序,其中,所述音频的热度包括如下至少一项:所述音频的播放热度;所述音频的搜索热度;以及所述音频的识曲热度。8.如权利要求7所述的方法,将所述音频指纹进行排序包括:将所述音频指纹按照音频的属性进行排序,其中,所述音频的属性包括如下至少一项:所述音频的语种;所述音频的流派;所述音频的场景标签。9.一种音频检索方法,包括:获取查询音频;
提取所述查询音频的查询音频指纹;将所述查询音频指纹送入如权利要求6-8中任一项建立的音频指纹库;基于所述音频指纹库进行音频指纹的匹配;以及基于音频指纹的匹配,返回音频检索结果。10.如权利要求9所述的方法,其中,所述音频指纹库按照音频的排序进行分片,其中,基于所述音频指纹库进行音频指纹的匹配包括:首先检索音频热度高的音频指纹库分片。11.如权利要求10所述的方法,还包括:获取所述用户的音乐偏好,其中,基于所述音频指纹库进行音频指纹的匹配包括:优先检索与所述音乐偏好相符的音频指纹库分片。12.如权利要求9所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的查询旋律指纹或查询音频指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于旋律指纹库进行所述查询旋律指纹或查询音频指纹的匹配。13.如权利要求12所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的查询伴奏指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于旋律指纹库返回的检索结果,进行基于伴奏指纹库的伴奏指纹匹配。14.如权利要求12所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的查询伴奏指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于常规音频指纹库或旋律指纹库进行所述查询伴奏指纹的匹配。15.如权利要求9所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的旋律伴奏联合指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于旋律伴奏联合指纹库进行旋律伴奏联合指纹的匹配。16.如权利要求9所述的方法,其中,所述峰值点对由包括哈希值和参考峰值点时间的哈希时间对表征,所述哈希值表示参考峰值点与其他峰值点的频率时间关系,其中,基于所述音频指纹库进行音...

【专利技术属性】
技术研发人员:邓俊祺张文铂
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1