【技术实现步骤摘要】
本专利技术涉及计算机应用
,特别涉及一种歌曲数据处理方法及装置。
技术介绍
通常人们会在例如手机、电脑等电子设备上存储大量的歌曲,以随时欣赏。为了便于人们能够快速找到自己喜欢的歌曲,电子设备往往会利用音乐播放器的分类功能对歌曲进行分类。音乐播放器可以按歌手、专辑名称、出版时间、风格、文件大小、歌曲时长对歌曲进行分类,其中,音乐播放器通过直接读取歌曲文件中内置的ID3信息实现对歌曲的分类。ID3信息是指,在一个MP3(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3,简称为MP3)等格式的歌曲文件的开头或末尾的若干字节内,附加了关于该歌曲文件的歌手、专辑名称、出版时间、风格、文件大小、歌曲时长等内容的信息。如前所述,目前主要通过读取歌曲文件中的ID3信息对歌曲进行分类,尽管ID3的相关标准也定义了用于标识语言类型的语言标签帧(TLAN帧,TLANLanguage),但是目前的歌曲文件中并没有在该TLAN帧中预置歌曲的语言类型信息。因此,现有技术中主要基于文件名、歌曲名或歌手名区分语言类型,但是由于文件名、歌曲名或歌手名的语言类型跟歌曲内容的语言类型相关性不强,例如一首名称为“Amani.mp3”的歌曲往往会被识别为英文歌曲,而实际上,“Amani.mp3”是中文歌曲。又例如,一首名称为“加州旅馆.mp3”的歌曲往往会被识别为中文歌曲,而实际上,“加州旅馆.mp3”是英文歌曲。因此,基于文件名、歌曲名或歌手名识别语言类型的准确率低,进而无法按照语言类型对歌曲进行有序、准确的分类。
技术实现思路
基 ...
【技术保护点】
一种歌曲数据处理方法,其特征在于,包括:获取选定歌曲所对应的歌词数据;读取所述歌词数据中的文字字符的统一码Unicode编码值,根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息;根据识别的所述语言信息进行所述选定歌曲的分类处理。
【技术特征摘要】
1.一种歌曲数据处理方法,其特征在于,包括:获取选定歌曲所对应的歌词数据;读取所述歌词数据中的文字字符的统一码Unicode编码值,根据读取到的统一码Unicode编码值识别所述选定歌曲的语言信息;根据识别的所述语言信息进行所述选定歌曲的分类处理。2.根据权利要求1所述的方法,其特征在于,所述读取所述歌词数据中的文字字符的统一码Unicode编码值,根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息,包括:依序读取歌词数据中的文字字符的统一码Unicode编码值,根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型,当所读取的文字字符的语言类型为其它语言类型,则终止所述歌词数据中的文字字符的统一码Unicode编码值的读取,所述其它语言类型是区别于英文语言、中文语言、日文语言、韩文语言的语言类型;根据确定出的文字字符的语言类型生成所述选定歌曲的语言信息。3.根据权利要求1所述的方法,其特征在于,所述读取所述歌词数据中的文字字符的统一码Unicode编码值,根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息,包括:依序读取歌词数据中的文字字符的统一码Unicode编码值;根据读取到的文字字符的统一码Unicode编码值确定所读取的文字字符的语言类型;当所读取的文字字符的语言类型为英文语言时,继续进行本轮顺序的读取,直至读取到的文字字符对应的语言类型为其它语言类型,或直至所述歌词数据中的所有文字字符对应的统一码Unicode编码值读取完毕,所述其它语言类型是区别于英文语言、中文语言、日文语言、韩文语言的语言类型;当歌词数据中的所有文字字符对应的统一码Unicode编码值都读取完毕,且所有文字字符的语言类型均为英文语言,则根据所有文字字符的语言类型生成所述选定歌曲的语言信息。4.根据权利要求1所述的方法,其特征在于,所述读取所述歌词数据中的文字字符的统一码Unicode编码值,根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息,包括:依序读取歌词数据中的文字字符的统一码Unicode编码值,当读取到的文字字符的统一编Unicode编码值是在中日韩统一表意符号的编码范围内时,则继续读取下一个文字字符的统一码Unicode编码值,直至所述歌词数据中的所有文字字符的统一码Unicode编码值读取完毕;根据中日韩统一表意符号的编码范围对应的语言类型,得到所述歌曲的语言信息为中文语言、日本语言和韩国语言三种语言中的其中一种;计算所述歌词数据中的所有文字字符中包含所述三种语言中至少一种语言的常用字符个数;根据所述至少一种语言的常用字符个数和所述歌词数据中包括的所有文字字符个数,计算出所述歌词数据中所述至少一种语言的常用字符概率;根据所述常用字符概率,识别所述歌曲的语言信息。5.根据权利要求1所述的方法,其特征在于,所述读取所述歌词数据中的文字字符的统一码Unicode编码值,根据所述读取到的统一码Unicode编码值识别所述选定歌曲的语言信息的步骤之前,所述方法还包括:根据时间戳剔除所述歌词数...
【专利技术属性】
技术研发人员:杨鹏,
申请(专利权)人:青岛海信移动通信技术股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。