一种歌曲识别方法、装置、存储介质及电子设备制造方法及图纸

技术编号:23086717 阅读:28 留言:0更新日期:2020-01-11 01:44
本发明专利技术实施例公开了一种歌曲识别方法、装置、存储介质及电子设备。该方案通过获取目标歌曲片段,对目标歌曲片段进行变换处理,生成对应的第一频谱图;根据第一频谱图和预设的神经网络模型,生成多维的第一特征向量;获取预存歌曲的第二特征向量;计算第一特征向量与第二特征向量之间的相似度,并确定最大相似度;若最大相似度大于预设阈值,则判定目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本,以提高对翻唱歌曲的识别准确率。

A song recognition method, device, storage medium and electronic equipment

【技术实现步骤摘要】
一种歌曲识别方法、装置、存储介质及电子设备
本专利技术涉及音频处理
,具体涉及一种歌曲识别方法、装置、存储介质及电子设备。
技术介绍
目前,用户可以通过输入相关的关键字搜索歌曲,例如歌曲名字或者歌词等。或者,当用户听到一段喜爱的旋律却不知道歌名的情况下,只需要用手机录制一段听到的歌曲片段,通过音乐软件的听歌识曲功能,即可识别出该片段所属的歌曲。但是,传统的听歌识曲方案,通常是通过音频指纹检索的方式获取歌曲的名称,能够实现对录制的原唱歌曲片段进行识别。但是对于翻唱的歌曲,例如,用户自己对歌曲片段进行哼唱识别时,识别准确度非常低。
技术实现思路
本专利技术实施例提供一种歌曲识别方法、装置、存储介质及电子设备,可以提高对翻唱歌曲的识别准确率。本专利技术实施例提供一种歌曲识别方法,包括:获取目标歌曲片段,对所述目标歌曲片段进行变换处理,生成对应的第一频谱图;根据所述第一频谱图和预设的神经网络模型,生成多维的第一特征向量;获取预存歌曲的第二特征向量,其中,一首预存歌曲分割为多个预存歌曲片段,一个预存歌曲片段对应一个第二特征向量,所述第一特征向量与所述第二特征向量的维数相等;计算所述第一特征向量与所述第二特征向量之间的相似度,并确定最大相似度;若所述最大相似度大于预设阈值,则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。本专利技术实施例还提供一种歌曲识别装置,包括:音频变换单元,用于获取目标歌曲片段,对所述目标歌曲片段进行变换处理,生成对应的第一频谱图;特征提取单元,用于根据所述第一频谱图和预设的神经网络模型,生成多维的第一特征向量;数据获取单元,用于获取预存歌曲的第二特征向量,其中,一首预存歌曲分割为多个预存歌曲片段,一个预存歌曲片段对应一个第二特征向量,所述第一特征向量与所述第二特征向量的维数相等;相似度计算单元,用于计算所述第一特征向量与所述第二特征向量之间的相似度,并确定最大相似度;翻唱识别单元,用于若所述最大相似度大于预设阈值,则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。本专利技术实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本专利技术实施例所提供的任一歌曲识别方法。本专利技术实施例提供的歌曲识别方案,获取目标歌曲片段后,对该目标歌曲片段进行变换处理,生成对应的第一频谱图。根据第一频谱图和预设的神经网络模型,生成多维的第一特征向量,该第一特征向量能够表征目标歌曲片段所包含的信息。获取预存歌曲的第二特征向量,预存歌曲集合中的每一首预存歌曲被分割为多个预存歌曲片段,一个预存歌曲片段对应一个第二特征向量,并且第一特征向量与第二特征向量的维数相等。通过计算第一特征向量与第二特征向量之间的相似度,来确定与目标歌曲片段最接近的预存歌曲片段,由于预存歌曲集合中有多个预存歌曲片段,故可以计算多个相似度,从多个相似度中确定最大相似度,若该最大相似度大于预设阈值,则可以判断目标歌曲片段与最大相似度对应的预存歌曲为同一首歌曲的不同版本,本方案通过神经网络模型将高维的音频数据转换为低维的特征向量,通过衡量低维特征向量的相似性来判断歌曲的相似性,提高了特征的信息量,增强歌曲识别算法的鲁棒性,进而实现对于翻唱歌曲的准确识别。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的歌曲识别方法的应用场景示意图;图1b是本专利技术实施例提供的歌曲识别方法的第一流程示意图;图2a是本专利技术实施例提供的歌曲识别方法的第二流程示意图;图2b是本专利技术实施例提供的歌曲识别方法的神经网络结构示意图;图3a是本专利技术实施例提供的歌曲识别装置的第一种结构示意图;图3b是本专利技术实施例提供的歌曲识别装置的第二种结构示意图;图3c是本专利技术实施例提供的歌曲识别装置的第三种结构示意图;图4是本专利技术实施例提供的电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本专利技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。本专利技术实施例提供一种歌曲识别方法,该歌曲识别方法的执行主体可以是本专利技术实施例提供的歌曲识别装置,或者集成了该歌曲识别装置的电子设备,其中该歌曲识别装置可以采用硬件或者软件的方式实现。其中,电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。请参照图1a所示,为本申请实施例中歌曲识别方法的应用场景示意图。电子设备通过语音组件采集目标歌曲片段,对目标歌曲片段进行变换处理,生成对应的第一频谱图,根据第一频谱图和预设的神经网络模型,生成多维的第一特征向量,该第一特征向量能够表征目标歌曲片段中包含的信息。接下来,从预存歌曲集合中获取各预存歌曲分割得到的多个预存歌曲片段,其中,每一个预存歌曲片段对应于一个第二特征向量,根据预存歌曲片段生成第二特征向量的方式与根据目标歌曲片段生成第一特征向量的方式相同,故第二特征向量与第一特征向量具有相同的维数,第二特征向量能够表征预存歌曲片段中包含的信息。计算第一特征向量与各个第二特征向量之间的相似度,从多个相似度中确定出最大相似度,则可以判定该最大相似度对应的预存歌曲片段是目标歌曲片段的原唱版本,进而判定目标歌曲片段与最大相似度对应的预存歌曲片段为同一首歌曲的不同版本,可以输出该预存歌曲的名称,实现对翻唱歌曲的听歌识曲。在一实施例中,提供了一种关键帧提取方法,可以由电子设备执行。如图1b所示,该歌曲识别方法的具体流程可以如下:101、获取目标歌曲片段,对所述目标歌曲片段进行变换处理,生成对应的第一频谱图。本申请实施例的方案可以应用于听歌识曲的场景。例如,用户听到一首歌觉得好听,想要搜索该歌曲;或者想要搜歌,却只记得的歌词不记得歌名时,可以通过电子设备录制自己哼唱的几句,启动电子设备的听歌识曲功能进行歌曲搜索。其中,目标歌曲片段即为输入到电子设备中作为搜索依据的音频片段。本申请实施例对目标歌曲片段的获取方式不做具体限定。目标歌曲片段可以是用户自己哼唱录制的,也可以是接收其它终端发送的。其中,在一些实施例中,可以在录本文档来自技高网...

【技术保护点】
1.一种歌曲识别方法,其特征在于,包括:/n获取目标歌曲片段,对所述目标歌曲片段进行变换处理,生成对应的第一频谱图;/n根据所述第一频谱图和预设的神经网络模型,生成多维的第一特征向量;/n获取预存歌曲的第二特征向量,其中,一首预存歌曲分割为多个预存歌曲片段,一个预存歌曲片段对应一个第二特征向量,所述第一特征向量与所述第二特征向量的维数相等;/n计算所述第一特征向量与所述第二特征向量之间的相似度,并确定最大相似度;/n若所述最大相似度大于预设阈值,则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。/n

【技术特征摘要】
1.一种歌曲识别方法,其特征在于,包括:
获取目标歌曲片段,对所述目标歌曲片段进行变换处理,生成对应的第一频谱图;
根据所述第一频谱图和预设的神经网络模型,生成多维的第一特征向量;
获取预存歌曲的第二特征向量,其中,一首预存歌曲分割为多个预存歌曲片段,一个预存歌曲片段对应一个第二特征向量,所述第一特征向量与所述第二特征向量的维数相等;
计算所述第一特征向量与所述第二特征向量之间的相似度,并确定最大相似度;
若所述最大相似度大于预设阈值,则判定所述目标歌曲片段与所述最大相似度对应的预存歌曲为同一首歌曲的不同版本。


2.如权利要求1所述的歌曲识别方法,其特征在于,所述对所述目标歌曲片段进行处理,生成对应的第一频谱图,包括:
对所述目标歌曲片段进行短时傅里叶变换,生成对应的第一频谱图。


3.如权利要求1所述的歌曲识别方法,其特征在于,所述对所述目标歌曲片段进行变换处理,生成对应的第一频谱图,包括:
按照预设采样率对所述目标歌曲片段进行降采样处理;
对经过降采样处理后的目标歌曲片段进行变换处理,生成对应的第一频谱图。


4.如权利要求3所述的歌曲识别方法,其特征在于,所述按照预设采样率对所述目标歌曲片段进行降采样处理,包括:
判断所述目标歌曲片段的时长是否大于预设时长;
若是,则将所述目标歌曲片段的时长调整为预设时长;
按照所述预设采样率对预设时长的所述目标歌曲片段进行降采样处理。


5.如权利要求1所述的歌曲识别方法,其特征在于,所述神经网络模型包括卷积神经网络和分割编码网络;所述根据所述第一频谱图和预设的神经网络模型,生成多维的第一特征向量,包括:
将所述第一频谱图输入所述神经网络模型,在所述卷积神经网络中进行卷积运算,生成特征张量;
根据所述分割编码网络对所述特征张量进行编码处理,生成多维的第一特征向量。


6.如权利要求5所述的歌曲识别方法,其特征在于,所述分割编码网络包括输入层、数据分割层、全连接层和输出层;所述根据所述分割编码网络对所述特征张量进行编码处理,生成多维的第一特征向量,包括:
将所述特征张量输入所述分割编码网络,在所述输入层将所述特征张量转换为一维数据后,输入所述数据分割层;
在所述数据分割层将所述一维数据分割为n份,每一份连接至所述全连接层;
经过所述全连接层的运算后,由所述输出层输出n个特征值,所述n个特征值构成n维的第一特征向量,其中,n为大于1的正整数。


7.如权利要求...

【专利技术属性】
技术研发人员:孔令城
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利