基于音频特征的歌曲智能识别方法技术

技术编号:7084302 阅读:396 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于音频特征的歌曲智能识别方法,其包括以下步骤:(1)服务器对歌曲建立音频特征库;(2)在客户端设置好采样率,对外界歌曲进行录音t秒时间以上;(3)然后采用特定的音频特征提取算法提取该段音频的特征值;(4)处理完毕后,将音频特征参数通过网络上传到服务器;(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。本发明专利技术的目的在于设计出一种高性能高识别率的歌曲识别方案,实现起来比较灵活又具有良好的模块化和可扩展性。

【技术实现步骤摘要】

本专利技术涉及歌曲或乐曲的识别。
技术介绍
传统的音频特征常用来识别字、词、说话人和场景识别,比如(1)连续语音识别系统,把输入的语流切分为小的片段,在识别前先把各字分开,识别单词之间的边界。整个识别系统分为三层声学-语音层、词层和句法层。采用隐式马尔可夫模型框架,将各层次组成一个统一的结构。(2)基于内容的音频检索,通过反复重复一个歌曲的曲调,可以将歌曲的曲调片段从一系列音频信号中检索出来。(3)嵌入式语音识别系统在嵌入式平台实现的特定人孤立词语音识别系统。特定人语音识别系统可以对孤立词汇进行声学建模,识别采用动态时间归整等匹配算法,对小词汇量识别实现效果比较理想。尽管传统音频特征可以被用来识别字词和语句曲调,但在用来识别歌曲音乐的时候,也存在一些问题或缺陷例如利用连续语音识别系统进行歌曲识别。由于歌词速度不固定,时快时慢,对歌曲内容进行分割建立单词之间的边界是非常困难的。尽管有时可以采用能量最低点作为边界, 但通常还要根据发音信息加以验证。利用Mel频率倒谱系数为特征以及一个树形结构的分类器进行分类的方法,可以实现对音乐和声音的检索,但该方法对音乐和环境声音分类效果不够好。另外目前在嵌入式平台实现的主要是对系统的运算资源和存储资源要求比较低的特定人孤立词语音识别系统。综上,现有音频特征识别系统实现方案主要针对说话语音语义进行识别,在歌曲识别方面要么不能进行有效的识别,要么带有一些局限性。本专利技术的目的在于设计出一种高性能高识别率的歌曲识别方案,实现起来比较灵活又具有良好的模块化和可扩展性。
技术实现思路
为了解决现有技术中问题,本专利技术提供了一种,其包括以下步骤(1)服务器对歌曲建立音频特征库;(2)在客户端设置好采样率,对外界歌曲进行录音 秒时间以上;(3)然后采用特定的音频特征提取算法提取该段音频的特征值;(4)处理完毕后,将音频特征参数通过网络上传到服务器;(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。作为本专利技术的进一步改进,所述步骤(1)中,服务器对歌曲建立音频特征库,具体如下将音频数据流进行采样、分帧,假设分为ζ帧,通过对每帧PCM数据提取一个位的 0/1值作为特征,共提取个特征值。Pulse Code Modulation——脉码调制录音,所谓PCM录音就是将声音等模拟信号变成符号化的脉冲列,再予以记录。作为本专利技术的进一步改进,所述步骤(3)中具体操作如下以一定的采样频率采集t秒的音频流得到PCM数据,对PCM数据分帧,设按N个采样点划分为一帧,对每一帧的采样点进行快速傅里叶变换,设每一帧采样点χ (0),χ (1),…,x(N-l)经过快速傅里叶变换得到了一串频域幅值X(0),X(I), ...,X(N-l),其中权利要求1.一种,其特征在于其包括以下步骤(1)服务器对歌曲建立音频特征库;(2)在客户端设置好采样率,对外界歌曲进行录音 秒时间以上;(3)然后采用特定的音频特征提取算法提取该段音频的特征值;(4)处理完毕后,将音频特征参数通过网络上传到服务器;(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。2.根据权利要求1所述的,其特征在于所述步骤 (1)中,服务器对歌曲建立音频特征库,具体如下将音频数据流进行采样、分帧,假设分为 χ帧,通过对每帧PCM数据提取一个位的0/1值作为特征,共提取个特征值。3.根据权利要求1所述的,其特征在于所述步骤 (3)中具体操作如下以一定的采样频率采集 秒的音频流得到PCM数据,对PCM数据分帧,设按N个采样点划分为一帧,对每一帧的采样点进行快速傅里叶变换,设每一帧采样点 χ (0),χ (1),…,z(N-l)经过快速傅里叶变换得到了一串频域幅值X(0),X(I),… ,X(N-I),其中X(k) = Ej=O1 XOWf,O < k,| < N - 1 ‘ = e^lfjk为了提取_7位的音频特征,把快速傅里叶变换之后的N个频域幅值,按照所在频带平均分成等份,计算每等份频带内各个频域值的绝对值的和&用S紅W表示第《帧第 个等份频带所有频域幅值的和值,用/Ya W表示第《帧第 个等份频带的特征值,则其中 2 < Ii < χ >1 <m<y,这样,每个音频帧共提取ι个特征值,χ为音频段的总帧数,这样整个音频流共采集了 y X χ个特征值。4.根据权利要求3所述的,其特征在于数字录音装置的采样频率为44. IkHz05.根据权利要求3所述的,其特征在于频域幅值的频率范围为和人的听觉感知最相关的300Hz 22000Hz。6.根据权利要求1所述的,其特征在于步骤(5)中匹配方法如下将音频流的y X χ特征值组成y X χ维特征向量A,用这个特征向量与歌曲特征库中已经事先提取保存的特征向量B进行匹配,判断是否是同一首歌曲,匹配采用计算向量余弦夹角的方法设置一个比较门限值为Λ当向量余弦夹角必Γ时,认为歌曲匹配成功,否则认为匹配不成功。7.根据权利要求1所述的,其特征在于比较门限值为Γ取值范围在0. 5^0. 7之间。全文摘要本专利技术提供了一种,其包括以下步骤(1)服务器对歌曲建立音频特征库;(2)在客户端设置好采样率,对外界歌曲进行录音t秒时间以上;(3)然后采用特定的音频特征提取算法提取该段音频的特征值;(4)处理完毕后,将音频特征参数通过网络上传到服务器;(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。本专利技术的目的在于设计出一种高性能高识别率的歌曲识别方案,实现起来比较灵活又具有良好的模块化和可扩展性。文档编号G10L15/02GK102332262SQ201110285850公开日2012年1月25日 申请日期2011年9月23日 优先权日2011年9月23日专利技术者卜磊, 张钦宇, 李云鹤, 林威, 梁玉锋, 潘振鹏 申请人:哈尔滨工业大学深圳研究生院本文档来自技高网...

【技术保护点】
1.一种基于音频特征的歌曲智能识别方法,其特征在于:其包括以下步骤:(1)服务器对歌曲建立音频特征库;(2)在客户端设置好采样率,对外界歌曲进行录音t秒时间以上;(3)然后采用特定的音频特征提取算法提取该段音频的特征值;(4)处理完毕后,将音频特征参数通过网络上传到服务器;(5)在接受到待匹配的特征值后开始采用匹配算法进行相似度匹配;(6)匹配成功则将歌曲的原信息如歌曲名称、歌手、专辑名称等发送到客户端;匹配失败则反馈匹配失败的信息。

【技术特征摘要】

【专利技术属性】
技术研发人员:张钦宇林威梁玉锋李云鹤卜磊潘振鹏
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1