一种基于K最近邻算法生成逐字歌词文件的系统与方法技术方案

技术编号:23447826 阅读:26 留言:0更新日期:2020-02-28 21:30
本发明专利技术提供一种基于K最近邻算法生成逐字歌词文件的系统与方法,所述方法包括:获取需要生成歌词文件的音频数据,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法检测所有频域片段能量在频域分布范围值的变动,从而检测出所述音频数据出现歌词的时间节点,再结合所述音频数据中的文字,将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题。

A system and method of generating verbatim lyrics file based on K nearest neighbor algorithm

【技术实现步骤摘要】
一种基于K最近邻算法生成逐字歌词文件的系统与方法
本专利技术涉及音频处理领域,尤其涉及一种基于K最近邻算法生成逐字歌词文件的系统与方法。
技术介绍
K最近邻算法的思想是,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。现在mp3等音频播放设备播放歌曲文件时,没有逐字对应的歌词,逐字歌词需要人工制作。目前,通过音频检测文件核语音智能识别技术,可以实现所有歌曲自动生成逐字歌词。但是,现有的歌词字幕不能够对歌曲中每个字的发音时长做出准确的判断。比如当我们去KTV唱歌时,往往是通过某个字的颜色渐变等方法来表示这个字需要唱的时长,例如,该字字体颜色由白色逐渐变为蓝色来表示这个字需要唱的时间,但是,由于现阶段歌词字幕往往是人工制作或者根据检测音频文件和语音智能识别自动生成的,存在歌曲文件逐字歌词时长识别不精确的问题。目前,针对上述问题,还没有提出一种能够有效解决问题的技术方案。
技术实现思路
本专利技术提供了一种基于K最近邻算法生成逐字歌词文件的系统与方法,可有效解决歌曲文件逐字歌词时长识别不精确的问题。一方面,本专利技术提供了一种基于K最近邻算法生成逐字歌词文件的系统,包括:获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;转换模块,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;判断模块,用于获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;节点模块,用于当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;生成模块,用于将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。在一个实施例中,所述判断模块中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值。在一个实施例中,所述获取模块包括语音识别模块,用于通过智能语音识别技术,识别所述音频数据中的所有文字。在一个实施例中,所述生成模块包括:用于将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。在一个实施例中,所述分割模块的预设分割时长可根据所述音频数据的舒缓程度设定。另一方面,本专利技术还提供了一种基于K最近邻算法生成逐字歌词文件的方法,包括:获取需要生成歌词文件的音频数据和所述音频数据中的文字;对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;对所述所有音频片段进行傅里叶变换,得到对应的频域片段;获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。在一个实施例中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值。在一个实施例中,所述方法包括,通过智能语音识别技术,识别所述音频数据中的所有文字。在一个实施例中,所述方法包括,将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。在一个实施例中,所述预设分割时长可根据所述音频数据的舒缓程度设定。本专利技术通过获取需要生成歌词文件的音频数据,再将所述的音频数据至少分割成一个音频片段,对所述音频片段进行傅里叶变换,得到对应的频域片段,获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法检测所有频域片段能量在频域分布范围值的变动,从而检测出所述音频数据出现歌词的时间节点,再结合所述音频数据中的文字,将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。通过上述方案解决了目前歌词文件逐字歌词时长不精确的问题,可实现自动制作逐字歌词的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是一种基于K最近邻算法生成逐字歌词文件方法流程图;图2是一种基于K最近邻算法生成逐字歌词文件系统框架图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。在本说明书中,为了便于描述,附图中所示的各个部分的尺寸并不是按照实际的比例关系绘制的。本专利技术具体的实施方法流程图如图1所示。S11、获取需要生成歌词文件的音频数据和所述音频数据中的文字;S12、对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;S13、对所述所有音频片段进行傅里叶变换,得到对应的频域片段;S14、获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;S15、当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;S16、将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。在步骤S11中,需要获取需要生成歌词文件的音频数据和该音频数据中所对应的文字信息,该文字信息可以是人工提取的,也可以是通本文档来自技高网...

【技术保护点】
1.一种基于K最近邻算法生成逐字歌词文件的系统,其特征在于,包括:/n获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;/n分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;/n转换模块,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;/n判断模块,用于获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;/n节点模块,用于当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;/n生成模块,用于将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。/n

【技术特征摘要】
1.一种基于K最近邻算法生成逐字歌词文件的系统,其特征在于,包括:
获取模块,用于获取需要生成歌词文件的音频数据和所述音频数据中的文字;
分割模块,用于对所述的音频数据根据预设分割时长进行分割,至少分割成一个音频片段,所述分割所得的音频片段总数至少为一倍的所述文字总数;
转换模块,用于对所述所有音频片段进行傅里叶变换,得到对应的频域片段;
判断模块,用于获取所述所有频域片段能量在频域分布范围值,并利用K最近邻算法进行分类处理,判断每一个频域片段能量与其相邻的至少一个频域片段能量是否属于同一个类别;
节点模块,用于当所述待判断频域片段能量和与其相邻的至少一个频域片段能量在频域分布范围值不属于同一个类别时,将该段频域片段对应的时间设定为一个时间节点;
生成模块,用于将判断所得的时间节点与所述文字根据先后次序一一对应,生成逐字歌词文件。


2.根据权利要求1所述的系统,其特征在于,所述判断模块中,所述K最近邻算法判断是否属于同一个类别的频率片段数K值可通过循环迭代进行测试,选取通过判断获取的总的时间节点数等于所述文字数所对应的K值。


3.根据权利要求1所述的系统,其特征在于,所述获取模块包括语音识别模块,用于通过智能语音识别技术,识别所述音频数据中的所有文字。


4.根据权利要求3所述的系统,其特征在于,所述生成模块包括:用于将判断所得的所述时间节点与所述语音识别模块识别的文字根据先后次序进行一一对应,生成逐字歌词文件。


5.根据权利要求1所述的系统,其特征在于,所述...

【专利技术属性】
技术研发人员:马哲高超
申请(专利权)人:北京雷石天地电子技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1