The invention discloses an audio fingerprint extraction and database building method, and a corresponding identification and audio retrieval method and system. The audio fingerprint extraction method includes: acquiring the frequency spectrum of the audio; Based on the frequency time relationship between the reference peak point and other peak points in the spectrum, the peak point pair is generated; An audio fingerprint of the audio is generated based on a pair of peak points. Audio fingerprints can include conventional fingerprints, melody fingerprints, accompaniment fingerprints and melody accompaniment fingerprints. The extracted audio fingerprint can be used for audio identification and the establishment of audio retrieval database to facilitate the identification of pending or query audio. In order to facilitate the identification of pending or query audio. In order to facilitate the identification of pending or query audio< br/>
【技术实现步骤摘要】
音频指纹提取和建库方法、及音频识别和检索方法与系统
[0001]本公开涉及一种音频处理领域,尤其设置一种音频指纹提取和建库方法,以及相应的音频识别和检索方法与系统。
技术介绍
[0002]随着数字技术和音乐市场的发展,每个音乐流媒体服务商所拥有的曲库(音频库)也变得越来越大。例如,一个成熟的商用曲库可能包括千万级的音乐数据。为此,需要一种能够以相对精简的方式描述音乐数据的方法,例如,音频指纹。为每个音频提取的音频指纹可以被放入音频指纹库中,用以对输入音频进行匹配与检索,例如,音乐播放App对应的“听歌识曲”功能。
[0003]面对百万甚至千万级的音乐数据,如何准确且高效地描述音乐数据,如何快速进行音频检索和匹配,成为了本领域内的一大难题。
技术实现思路
[0004]本公开要解决的一个技术问题是提供一种改进的音频指纹提取方案,进而提供一种基于上述提取指纹的建库方案,建立的音频指纹库可用于与客户端的交互以实现音频检索功能。
[0005]根据本公开的第一方面,提供了一种音频指纹提取方法,包括:获取音频的频谱;基于频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对;基于峰值点对生成所述音频的音频指纹。
[0006]根据本公开的第二方面,提供了一种音频指纹库建立方法,包括:获取曲库内的音频;根据本公开第一方面所述的方法,提取获取音频的音频指纹;以及将提取的音频指纹进行排序。
[0007]根据本公开的第三方面,提供了一种音频检索方法,包括:获取查询音频;提取所述查询音频的查询 ...
【技术保护点】
【技术特征摘要】
1.一种音频指纹提取方法,包括:获取音频的频谱;基于频谱内参考峰值点与其他峰值点的频率时间关系,生成峰值点对;基于峰值点对生成所述音频的音频指纹。2.如权利要求1所述的方法,还包括:提取所述音频的旋律信息,其中,获取音频的频谱包括:将所述旋律信息进行变换以获取旋律频谱,并且所述方法基于所述旋律频谱生成基于旋律峰值点对的音频旋律指纹。3.如权利要求2所述的方法,其中,所述旋律信息包括人声信息,其中,获取音频的频谱包括:将所述人声信息进行变换以获取人声频谱,并且所述方法基于所述人声频谱生成基于人声峰值点对的音频人声指纹。4.如权利要求2所述的方法,还包括:提取所述音频的伴奏信息,其中,获取音频的频谱包括:将所述伴奏信息进行傅里叶变换,以获取伴奏频谱,并且所述方法还包括:基于所述伴奏频谱生成基于伴奏峰值点对的音频伴奏指纹。5.如权利要求2所述的方法,还包括:基于旋律频谱内参考旋律峰值点与其他旋律峰值点以及伴奏频谱内其他伴奏峰值点之间的频率时间关系,生成旋律伴奏联合峰值点对;以及基于所述旋律伴奏联合峰值点对生成所述音频的音频旋律伴奏联合指纹。6.一种音频指纹库建立方法,包括:获取曲库内的音频;根据权利要求1-5中任一项所述的方法,提取获取音频的音频指纹;以及将提取的音频指纹进行排序。7.如权利要求6所述的方法,其中,将所述音频指纹进行排序包括:将所述音频指纹按照音频的热度进行排序,其中,所述音频的热度包括如下至少一项:所述音频的播放热度;所述音频的搜索热度;以及所述音频的识曲热度。8.如权利要求7所述的方法,将所述音频指纹进行排序包括:将所述音频指纹按照音频的属性进行排序,其中,所述音频的属性包括如下至少一项:所述音频的语种;所述音频的流派;所述音频的场景标签。9.一种音频检索方法,包括:获取查询音频;
提取所述查询音频的查询音频指纹;将所述查询音频指纹送入如权利要求6-8中任一项建立的音频指纹库;基于所述音频指纹库进行音频指纹的匹配;以及基于音频指纹的匹配,返回音频检索结果。10.如权利要求9所述的方法,其中,所述音频指纹库按照音频的排序进行分片,其中,基于所述音频指纹库进行音频指纹的匹配包括:首先检索音频热度高的音频指纹库分片。11.如权利要求10所述的方法,还包括:获取所述用户的音乐偏好,其中,基于所述音频指纹库进行音频指纹的匹配包括:优先检索与所述音乐偏好相符的音频指纹库分片。12.如权利要求9所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的查询旋律指纹或查询音频指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于旋律指纹库进行所述查询旋律指纹或查询音频指纹的匹配。13.如权利要求12所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的查询伴奏指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于旋律指纹库返回的检索结果,进行基于伴奏指纹库的伴奏指纹匹配。14.如权利要求12所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的查询伴奏指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于常规音频指纹库或旋律指纹库进行所述查询伴奏指纹的匹配。15.如权利要求9所述的方法,其中,提取所述查询音频的查询音频指纹包括:提取所述查询音频的旋律伴奏联合指纹,基于所述音频指纹库进行音频指纹的匹配包括:基于旋律伴奏联合指纹库进行旋律伴奏联合指纹的匹配。16.如权利要求9所述的方法,其中,所述峰值点对由包括哈希值和参考峰值点时间的哈希时间对表征,所述哈希值表示参考峰值点与其他峰值点的频率时间关系,其中,基于所述音频指纹库进行音...
【专利技术属性】
技术研发人员:邓俊祺,张文铂,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。