一种获取歌曲信息的方法及系统技术方案

技术编号:8594082 阅读:215 留言:0更新日期:2013-04-18 07:17
本发明专利技术涉及音乐内容分析技术,提供了一种获取歌曲信息的方法,包括建立完备的歌手库和歌曲库;切分歌曲标题为可能的歌名歌手;确定可能是准确歌手的部分;提取准确的歌名歌手进行歌词关联。本发明专利技术还提供了一种获取歌曲信息的系统。采用上述技术方案,通过对歌曲标题提取准确的歌名歌手,可以使更多的歌曲关联上对应的歌词,从而给用户更好的体验。

【技术实现步骤摘要】

本专利技术涉及音乐内容分析技术,特别地涉及一种获取歌曲信息的方法及系统
技术介绍
随着移动互联网的飞速发展,手机音乐用户规模也不断扩大,用户对音乐的需求也越来越多。用户不仅需要听歌,在听歌的同时,还想获取该歌曲的歌词。目前,在音乐网站听歌的同时已经可以同步显示歌词信息,但是还有很大一部分歌曲是没有关联上歌词的,对于这些没有歌词的歌曲,如何为其提供对应的歌词成为一个待解决的问题。对于前述的问题,在歌曲库中,可以根据歌曲标题为歌曲关联上对应的歌词,从而在用户下载歌曲的同时,为用户提供该歌曲匹配的歌词。但是,在歌曲库中,存在一些这种情况歌词库中确实存在某首歌的歌词,但由于歌曲标题或歌词标题的不规整,而没有为该首歌关联上对应的歌词,这样用户在下载这首歌的时候,就不能获得这首歌的歌词。如在歌词库中有“怒放的生命-汪峰”这首歌的歌词;而在歌曲库中同时存在“怒放的生命-汪峰”、“怒放的生命(电视剧《北京青年》插曲)_汪峰”这两首歌;根据标题信息,目前只能对“怒放的生命-汪峰”这首歌关联上对应的歌词;而“怒放的生命(电视剧《北京青年》插曲)_汪峰”则由于标题不规整(多了“(电视剧《北京青年》插曲)”的附加信息),而没有关联上对应的歌词。另外,目前机器自动生成的音乐榜单中可能存在以下问题由于歌曲标题的不规整,导致同一首歌在同一榜单中出现多次。如某热门金曲中同时存在以下两首歌“滴答-侃侃”,“滴答(北京爱情故事插曲)_侃侃”这样给用户推荐的歌曲榜单就不够完美,也显得该网站不够专业。如何提供准确的歌曲名称和歌手名字,以保证榜单中无重复歌曲成为一个待解决的技术问题。专利技术内容本专利技术解决的技术问题在于提供了一种获取歌曲信息的方法及系统,以提供准确的歌名和歌手。为解决上述问题,本专利技术提供了一种获取歌曲信息的方法,包括,建立完备的歌手库和歌曲库;切分歌曲标题为可能的歌名歌手;确定可能是准确歌手的部分;提取准确的歌名歌手进行歌词关联。进一步地,上述的方法中,所述建立完备的歌手库和歌曲库具体包括,从互联网音乐网站中抓取歌手信息;从互联网音乐网站中抓取歌曲标题信息。进一步地,上述的方法中,在从互联网音乐网站中抓取歌曲标题信息后,还包括,对所述抓取的歌曲标题进行规整处理,所述规整处理包括,将繁体转换为简体,全角转半角、英文单词首字母大写、转换html实体编码。进一步地,上述的方法中,所述切分歌曲标题为可能的歌名歌手具体包括,歌曲标题中存在空格或标点符号时,以空格或标点符号切分歌名歌手;歌曲标题中没有空格或标点符号时,利用歌手库和歌曲库切分歌名歌手。进一步地,上述的方法中,确定可能是准确歌手的部分具体包括,通过查找歌手库来确定可能是准确歌手的部分;如果在歌手库中出现,则该部分确定为可能准确的歌手。进一步地,上述的方法中,所述提取准确的歌名歌手具体包括,将确定的可能准确的歌手与可能的歌名组合起来,然后根据歌曲库挑选出概率最大的歌名歌手,即为准确的歌名歌手。进一步地,上述的方法中,还包括,在提取准确的歌手歌名后,设置一个提取准确歌名歌手的阈值,出现概率大于该阈值的才提取出为准确的歌名歌手。本专利技术还提供了一种获取歌曲信息的系统,包括,建it旲块,用于建立完备的歌手库和歌曲库;切分模块,用于切分歌曲标题为可能的歌名歌手;确定模块,用于确定可能是准确歌手的部分;提取模块,用于提取准确的歌名歌手进行歌词关联。上述的系统,其中,所述建立模块用于建立完备的歌手库和歌曲库具体包括,所述建立模块用于从互联网音乐网站中抓取歌手信息,以及从互联网音乐网站中抓取歌曲标题信息;且用于在从互联网音乐网站中抓取歌曲标题信息后,对所述抓取的歌曲标题进行规整处理,所述规整处理包括,将繁体转换为简体,全角转半角、英文单词首字母大写、转换html实体编码。上述的系统,其中,所述切分模块用于切分歌曲标题为可能的歌名歌手具体包括,所述切分模块,用于在歌曲标题中存在空格或标点符号时,以空格或标点符号切分歌名歌手;以及用于歌曲标题中没有空格或标点符号时,利用歌手库和歌曲库切分歌名歌手。上述的系统,其中,所述确定模块用于确定可能是准确歌手的部分具体包括,所述确定模块用于通过查找歌手库来确定可能是准确歌手的部分,如果在歌手库中出现,则该部分确定为可能准确的歌手。上述的系统,其中,所述提取模块用于提取准确的歌名歌手具体包括,所述提取模块用于将确定的可能准确的歌手与可能的歌名组合起来,然后根据歌曲库挑选出概率最大的歌名歌手,即为准确的歌名歌手;以及,所述提取模块还用于在提取准确的歌手歌名后,设置一个提取准确歌名歌手的阈值,出现概率大于该阈值的才提取出为准确的歌名歌手。采用上述技术方案,通过对歌曲标题以及歌词标题提取准确的歌名歌手,可以使更多的歌曲关联上对应的歌词,从而给用户更好的体验。歌曲库总数958万,通过标题可以直接关联上歌词的数目是192万;通过提取准确的歌名歌手,可以另外使91. 3万歌曲标题关联上歌词,总共有283. 3万歌曲标题可以关联上歌词。另外,通过提取歌曲标题中准确的歌名歌手,可以剔除榜单中的重复歌曲,从而生成更好的榜单。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中图1是本专利技术第一实施例流程图;图2是本专利技术第二实施例结构图。具体实施例方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,是本专利技术第一实施例流程图,提供了一种获取歌曲信息的方法,包括,步骤SlOl,建立完备的歌手库和歌曲库;作为一个实施例,从互联网音乐网站中,如虾米,巨鲸,百度音乐,新浪乐库,QQ乐库,酷我音乐等网站抓取歌手信息,共抓取歌手32. 6万。如周杰伦,王菲,Justin Bieber等等,尽可能地保证歌手库的齐全。作为一个实施例,从互联网音乐网站中,如百度音乐,巨鲸,QQ乐库,虾米,新浪乐库,AS音乐,一听音乐等网站抓取歌曲标题信息,抓取时根据规则区分开歌名歌手,共抓取歌曲标题958万。接下来需要对歌曲标题做些简单的规整,如将繁体转换为简体,全角转半角、英文单词首字母大写、转换html实体编码如 &#039。歌曲库的歌曲标题信息如下表所示,主要包括三部分内容歌名,歌手以及该歌曲标题出现的次数。本文档来自技高网...

【技术保护点】
一种获取歌曲信息的方法,其特征在于,包括,建立完备的歌手库和歌曲库;切分歌曲标题为可能的歌名歌手;确定可能是准确歌手的部分;提取准确的歌名歌手进行歌词关联。

【技术特征摘要】
1.一种获取歌曲信息的方法,其特征在于,包括,建立完备的歌手库和歌曲库;切分歌曲标题为可能的歌名歌手;确定可能是准确歌手的部分;提取准确的歌名歌手进行歌词关联。2.根据权利要求1所述的方法,其特征在于,所述建立完备的歌手库和歌曲库具体包括,从互联网音乐网站中抓取歌手信息;从互联网音乐网站中抓取歌曲标题信息。3.根据权利要求2所述的方法,其特征在于,在从互联网音乐网站中抓取歌曲标题信息后,还包括,对所述抓取的歌曲标题进行规整处理,所述规整处理包括,将繁体转换为简体,全角转半角、英文单词首字母大写、转换html实体编码。4.根据权利要求2所述的方法,其特征在于,所述切分歌曲标题为可能的歌名歌手具体包括,歌曲标题中存在空格或标点符号时,以空格或标点符号切分歌名歌手;歌曲标题中没有空格或标点符号时,利用歌手库和歌曲库切分歌名歌手。5.根据权利要求4所述的方法,其特征在于,确定可能是准确歌手的部分具体包括, 通过查找歌手库来确定可能是准确歌手的部分;如果在歌手库中出现,则该部分确定为可能准确的歌手。6.根据权利要求5所述的方法,其特征在于,所述提取准确的歌名歌手具体包括, 将确定的可能准确的歌手与可能的歌名组合起来,然后根据歌曲库挑选出概率最大的歌名歌手,即为准确的歌名歌手。7.根据权利要求6所述的方法,其特征在于,还包括,在提取准确的歌手歌名后,设置一个提取准确歌名歌手的阈值,出现概率大于该阈值的才提取出为准确的歌名歌手。8.一种获取歌曲信息的系统,其特征在于,包括,建立|旲块,用于建...

【专利技术属性】
技术研发人员:田家乐庞景良黄明辉
申请(专利权)人:深圳市宜搜科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1