一种基于特征的音乐版权识别方法技术

技术编号:17814057 阅读:32 留言:0更新日期:2018-04-28 06:16
本发明专利技术公开了一种基于特征的音乐版权识别方法,包括获取待识别音频文件,对所述音频文件分片处理,提取音频片段的音频指纹,遍历指纹库的音频指纹,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,获得匹配结果;对所述匹配结果进行优化处理,包括统计出现相同时间差最多的指纹个数是否大于第一预设阈值,如果是,计算出现相同时间差最多的音频指纹持续时间;判断所述音频指纹持续时间是否大于第二预设阈值,如果是,分析音频指纹对应的时间点的个数;判断所述时间点的个数是否大于第三预设阈值,如果是,获得每个音频片段的识别结果;将每个音频片段的识别结果进行合并处理。本发明专利技术的音乐版权识别方法,识别准确度和识别率高。

【技术实现步骤摘要】
一种基于特征的音乐版权识别方法
本专利技术属于音频识别
,具体涉及一种基于特征的音乐版权识别方法。
技术介绍
随着互联网技术的快速发展,许多原创的数字音频资源都利用网络传播,利用互联网的便利性,人们可以很轻松的下载音频资源,在未经过授权的情况下利用音乐制作音视频文件流传网络。传播过程中就严重涉及到版权问题,随着互联网版权意识的提升,越来越多的人们开始致力于保护原创作品,维护版权。因此,利用软件为对音视频提供识别服务就很有必要。目前应用多是听歌识曲,根据用户喜欢的音频片段,查找该歌曲。由于视频背景音或节目类音频存在开始和持续时间不确定的因素,因而很少运用该技术对视频背景或节目类音频版权的识别。Phillips研究人员提出了一种有效的基于频谱多子带特征提取的PRH音频指纹提取算法,但公众能够获得的音频研究文档却不多,该算法存在检索时间随机性、计算量大、对音高敏感的问题。Echoprint对上万的歌曲识别慢,对噪音较多的文件识别率低。
技术实现思路
本专利技术针对现有的音频识别方法中存在识别率低或识别不准确的问题,提供一种基于特征的音乐版权识别方法,有效提高音频文件的识别率,以及准确性,同时解决视频背景或节目类音频音乐出现的时间点和持续时间不确定的问题,识别速度快,为音频版权识别以及鉴别提供有效帮助。为了实现上述目的,本专利技术采用的技术方案为:一种基于特征的音乐版权识别方法,包括获取待识别音频文件,对所述音频文件分片处理,提取音频片段的音频指纹,遍历指纹库的音频指纹,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,获得匹配结果;对所述匹配结果进行优化处理,包括统计出现相同时间差最多的指纹个数是否大于第一预设阈值,如果是,计算出现相同时间差最多的音频指纹持续时间;判断所述音频指纹持续时间是否大于第二预设阈值,如果是,分析音频指纹对应的时间点的个数;判断所述时间点的个数是否大于第三预设阈值,如果是,获得每个音频片段的识别结果;将每个音频片段的识别结果进行合并处理,合并后的连续音频片段的识别结果再按照上述优化处理的方法计算置信度,输出不低于置信度的识别结果,最后根据歌曲标识信息查询歌曲详细信息。优选地,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,匹配的方法包括:识别服务器从任务队列中获取待识别的音频片段的音频指纹,然后利用这些音频指纹从指纹库中找到包含这些音频指纹的歌曲和对应歌曲的时间点,将待识别的音频指纹对应的时间点减去从指纹库得到歌曲的时间点得到一个时间差,最后统计出现相同时间差和歌曲标识最多的歌曲。优选地,所述提取音频片段的音频指纹采用的是Shazam算法提取。优选地,所述的音频指纹持续时间的计算方法包括时间差最多的那一部分指纹获取对应的最大时间点和最小时间点计算出持续时间段,然后乘以Shazam算法指纹提取过程中的每一帧代表的时间,最后计算出实际持续时间。优选地,所述的合并处理包括首先利用该段索引值乘以每段时间长度计算出每一段的开始时间,然后根据相邻段如果识别到的音频相同且时间差等于分片长度的、或第一段的结果与第二段结果不同但与第三段相同且时间差等于第二段片段长度进行合并。优选地,所述根据歌曲标识信息查询歌曲详细信息包括利用歌曲指纹对应的时间点计算出歌曲在待识别音频文件的开始时间,并输出包含开始时间、持续时间、歌名的歌曲详细信息。由于采用了上述技术方案,本专利技术的有益效果是:通过在分片或分段式识别方法的基础上,通过分别对指纹个数、指纹持续时间以及时间点的个数依次进行置信度计算以及判断,从而有效提高音频识别的准确性以及识别率;利用对音视频切片,识别后合并的方式解决视频或包含多段音乐的音频出现音乐时间点和持续时长不确定的问题,为现有的视频背景音乐以及综艺节目类音频音乐识别困难,版权侵犯鉴别困难提供了有效的解决办法。附图说明图1为本专利技术的合并处理示例一示意图。图2为本专利技术的合并处理示例二示意图。具体实施方式本专利技术的基于特征的音乐版权识别方法,指纹提取和检索基于Shazam算法。因为用于音视频版权检测,所以待识别的文件不可能存在大量噪音,所以不需要使用CQT来增强算法的抗噪能力,避免了多余计算量节省识别时间。Shazam算法包括:1)对音频分帧加窗:本专利技术采用的帧大小为1024,50%重叠,汉宁窗,窗大小等于帧大小。2)对每一帧数据进行FFT,得到频谱图。利用采样率(sr)、窗大小(sz)、重叠率(ol)可以计算出一帧所代表的时间段(ft):ft=sz*ol/sr带入相关数值就可以计算一帧所代表的时间,因此本专利技术采用的是46ms一帧。3)合并每一帧频谱图得到时频图,这个过程也叫STFT。4)利用可变滑动窗(低频小而高频大)找到窗内能量最大点。5)利用这些能量点的频率和时间点构成指纹。通过上述Shazam算法即可提取到音频指纹。为解决视频背景或节目类音频音乐出现的时间点和持续时间不确定的问题,包括音频入库形成指纹库、以及音频匹配或识别的过程。其中,指纹库的建立包括对已知音频文件Hash处理,得到音频标识,将音频标识和该音频基础数据加入基础数据库,提取音频指纹,将音频标识和音频指纹加入指纹数据库,指纹库的建立或音频入库的过程。而音频匹配或识别的过程包括首先对待识别音频进行分段或分片处理,具体地,对音视频按照时间进行切片处理,切片的大小将影响视频识别结果的开始时间点和持续时间的精度。切片越小精度越高,同时因为切片小最终片段越多将导致识别的计算量大最终耗时越长,经过反复实验以及计算,最终采用10秒,然后对将每段提取指纹和该切片的索引信息加入任务队列。识别服务器从任务队列中获取待识别的音视频片段的指纹,然后利用这些指纹从数据库中找到包含这些指纹的歌曲和对应歌曲的时间点,将待识别的指纹对应的时间点减去从数据库得到歌曲的时间点得到一个时间差,最后统计出现相同时间差和歌曲标识最多的那个即为最相似的歌曲,亦可得到音乐标识信息。为了进一步提高识别率以及识别准确度,本专利技术还继续统计时间差最多的指纹个数,利用该数值除以片段产生的全部指纹数得到一个比例值,如果该值大于一个预先设定的阀值则进入下一步否则不匹配,该预先设定的阈值为第一预设阈值,本专利技术该值设置为8‰。更进一步地,在上述匹配成功后,在获得的时间差最多的那一部分指纹中,获取对应的最大时间点(max_time_point)和最小时间点(min_time_point),计算出持续时间段,然后根据步骤2中的每一帧代表的时间(ft)可以计算出实际持续时间(timespan):Timespan=(max_time_point–min_time_point)*ft;根据持续时间可以预先设置一个时间段的阀值过滤掉低于该时间段的结果,同时因为每帧时间ft受采样率、窗大小等算法固定的值的影响,因此只需要对指纹的时间点之差设置一个阀值即可,该阈值为第二预设阈值,本专利技术该阀值为40对应的阀值时间为1.85秒,也就是说识别片段必须持续1.85秒以上。通过对持续时间的判断,能够有效排除持续时间短的识别结果,能够进一步地提高音频识别的准确度,可信程度也进一步提高。由于Shazam算法指纹数量大导致可能在某一小片段与指纹库中歌曲相似而被识别,为避免同一个时间点匹配到的指纹数过多,对指纹产生的本文档来自技高网...
一种基于特征的音乐版权识别方法

【技术保护点】
一种基于特征的音乐版权识别方法,包括获取待识别音频文件,对所述音频文件分片处理,提取音频片段的音频指纹,遍历指纹库的音频指纹,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,获得匹配结果;其特征在于:对所述匹配结果进行优化处理,包括统计出现相同时间差最多的指纹个数是否大于第一预设阈值,如果是,计算出现相同时间差最多的音频指纹持续时间;判断所述音频指纹持续时间是否大于第二预设阈值,如果是,分析音频指纹对应的时间点的个数;判断所述时间点的个数是否大于第三预设阈值,如果是,获得每个音频片段的识别结果;将每个音频片段的识别结果进行合并处理,合并后的连续音频片段的识别结果再按照上述优化处理的方法计算置信度,输出不低于置信度的识别结果,最后根据歌曲标识信息查询歌曲详细信息。

【技术特征摘要】
1.一种基于特征的音乐版权识别方法,包括获取待识别音频文件,对所述音频文件分片处理,提取音频片段的音频指纹,遍历指纹库的音频指纹,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,获得匹配结果;其特征在于:对所述匹配结果进行优化处理,包括统计出现相同时间差最多的指纹个数是否大于第一预设阈值,如果是,计算出现相同时间差最多的音频指纹持续时间;判断所述音频指纹持续时间是否大于第二预设阈值,如果是,分析音频指纹对应的时间点的个数;判断所述时间点的个数是否大于第三预设阈值,如果是,获得每个音频片段的识别结果;将每个音频片段的识别结果进行合并处理,合并后的连续音频片段的识别结果再按照上述优化处理的方法计算置信度,输出不低于置信度的识别结果,最后根据歌曲标识信息查询歌曲详细信息。2.根据权利要求1所述的音乐版权识别方法,其特征在于,将提取的音频片段的音频指纹与指纹库的音频指纹进行匹配,匹配的方法包括:识别服务器从任务队列中获取待识别的音频片段的音频指纹,然后利用这些音频指纹从指纹...

【专利技术属性】
技术研发人员:尹学渊王东明何林
申请(专利权)人:成都嗨翻屋文化传播有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1