一种基于语谱图识别的歌词时间戳生成方法技术

技术编号:22688946 阅读:20 留言:0更新日期:2019-11-30 03:35
本发明专利技术公开了一种基于语谱图识别的歌词时间戳生成方法,步骤S1:利用音频空间位置差异分离人声与伴奏;步骤S2:根据响度与BPM对处理后的音频作基于行的时间分割;步骤S3:将上述分割后的音频转化为语谱图,并利用图像识别对其进行基于单字的时间分割,得到所需的歌词时间戳。采用本发明专利技术的技术方案,将原始音频进行人声提取,并结合Adaboost模型对其语谱图进行识别,能有效提高对齐准确性,并大大降低人工对齐的成本。

A time stamp generation method of lyrics based on Spectrogram recognition

The invention discloses a method for generating time stamp of lyrics based on Spectrogram recognition. Step S1: separating voice and accompaniment by using the difference of audio spatial position; step S2: dividing the processed audio based on line time according to loudness and BPM; step S3: converting the segmented audio into spectrogram and dividing it based on single word time by using image recognition To the desired lyrics timestamp. By adopting the technical scheme of the invention, the original audio is extracted for human voice, and the spectrogram is recognized by combining AdaBoost model, which can effectively improve the alignment accuracy and greatly reduce the cost of manual alignment.

【技术实现步骤摘要】
一种基于语谱图识别的歌词时间戳生成方法
本专利技术涉及音乐信息检索领域,具体地,涉及一种依据给定歌词及音频生成歌词时间戳的方法。
技术介绍
在现代流行音乐中,歌词作为一种传达歌曲内容与思想的媒介,对于帮助观众更好的理解歌曲有着不可替代的作用,而歌词与歌曲不同步则严重影响观众的欣赏体验。现有技术在歌词对齐时需要人员凭听觉确定歌词在歌曲中的位置,不同人员对同一首歌曲的时间戳划分往往相差较大,人工方法不仅工作量大,成本高,耗时长,而且准确度也与个人水平有很大关系。并且现有的一些对齐方法对原始音频要求高,往往只对纯净的人声音频分划效果较为理想,而实际情况下的音频多为双声道乐曲,因此对齐准确度低。同时,传统方法对于不同风格乐曲对齐准确性差异巨大,具体与学习样本有很大关联,因此其鲁棒性较差,难以应用于实际问题中。此外,现有的手工歌词对齐方法多应用于逐行歌词对齐中,而逐字歌词对齐因需要较对的内容显著增加,且无统一的文件格式和标准,导致带有逐字歌词时间戳的歌词文本数量稀少。针对上述问题,目前仍未有有效的解决方法被提出。
技术实现思路
本专利技术目的在于,针对当前需要手动对齐歌词时间戳,特别是逐字歌词时间戳文本稀少这一现状,提供一种方便,快捷,自动的时间戳生成方法,解决歌词与歌曲同步放映中的时间对齐问题。为实现上述目的,本专利技术提供了一种基于语谱图识别的歌词时间戳生成方法,该方法包括如下步骤:对输入的歌曲音频应用主旋律提取技术,得到分离后的人声音频;依据给定的歌词文件进行基于行的片段提取;生成对应音频文件的语谱图;利用图像识别模块对该部分的语谱图分划,判断出可能的单字位置,与给定的歌词在该行字数做匹配,优化识别结果,最终得到带有时间戳的歌词文本。本专利技术的技术方案如下:一种基于语谱图识别的歌词时间戳生成方法,包含以下步骤:步骤S1:音频预处理,利用输入声源的空间位置差异作人声伴奏分离,具体包括以下步骤:步骤S1.1:分别获取音频左右声道的音频信息,并对左声道音频作反转处理,反转处理公式如下:其中,代表左声道每个采样点反转后的信息,代表左声道每个原始采样点信息,即对应时间i下的振幅x;此外,左声道每个采样点信息还可表示为:其中表示位于中置声道的每个采样点信息,表示左声道中偏离中置声道的音频信息。步骤S1.2:将反转后的左声道音频叠加至右声道上,得到远离中置声道的音频,其叠加公式如下:式中为每个远离中置声道的音频采样点,为右声道每个采样点的原始数据,为左声道中偏离中置声道的音频信息。步骤S1.3:依据上述得到的远离中置声道的音频作中置声道析取,得到中置声道音频,中置声道表达式为:其中为每个位于中置声道音频信息的采样信息,sign(*)为符号函数,xi是原始音频合并左右声道合并后的采样点信息。步骤S1.4:对得到的中置声道作滤波处理:其中为滤波后得到的音频采样点信息,f(*)函数表示滤波函数,在本例中将使用减谱法作为滤波函数,其步骤如下:步骤S1.4.1:优选地,使用线性预测的方法估计噪声;步骤S1.4.2:对原始音频及估计噪声作DFT(离散傅里叶变换)处理,解得其功率谱;步骤S1.4.3:对两者功率谱相减后求其二范数;步骤S1.4.4:利用噪声相位作相位变换;步骤S1.4.5:对最终结果作IDFT(离散傅里叶逆变换)处理。步骤S1.5:对原始音频及上述步骤S1.4得到的音频作基音检测,基音检测公式如下:其中T表示其间周期,τmin表示基音周期最小值,τmax表示基音周期最大值,argmin表示取最小自变量。具体地,步骤如下:步骤S1.5.1:对输入的音频数据作DFT处理,得到其复数谱;步骤S1.5.2:对复数谱的模长作平方运算,得到功率谱;步骤S1.5.3:对功率谱取对数后作IDFT,最终得到其倒谱。步骤S1.6:将两者基音作比较,判断差异点,并依据差异点返回步骤S1.4调整该时间范围内的滤波参数,最终得到分离后的人声需要注意的是,也可以对右声道音频作上述操作,最终得到的结果相同。步骤S2:基于行的音频分离及歌词对齐,包括以下步骤:步骤S2.1:以音频响度为阈值分隔音频,并与输入的歌词行数作对比,得到可能的基于行的分划Sj,j=1,2,…。步骤S2.2:对每个分划Sj作BPM(每分钟节拍数)检测,具体地:步骤S2.2.1:对某个小区间作相位估计,若其相位估计值与实践值相差过大,则认定其为起始点;步骤S2.2.2:对起始点信息作平滑滤波处理;步骤S2.2.3:对上述起始点函数作移动均值门限预处理;步骤S2.2.4:计算其自相关函数;步骤S2.2.5:通过构建HMM(隐马尔可夫模型)预测下一帧的节拍速度;步骤S2.2.5:输出节拍周期。BPM计算公式如下:其中Φi表示每个时间点处估计相位与实际相位的差,φi是实际相位,为估计相位,ti为给定时间点,N表示在该分划下的时间点总个数,Time是该分划总时间,单位为分钟,A表示相位差阈值,由经验给出。步骤S2.3:对BPM值突变的分划做出标记,记作步骤S2.4:采用二分法,对每个标记的分划取时间中点为分划点作再分划并对每个分划再次检测BPM,直到BPM变化值小于给定值A或循环次数超过给定范围。如BPM变化值小于给定值,则取消该分划的标记,否则将BPM突变的点视作一个新的分划点,将原本标记的分划修改成两个新的分划。步骤S2.5:对新的分划个数与歌词行数对比,可能有如下三种情况:分划个数与歌词行数相等,则进行步骤S3;分划个数小于歌词行数,加大BPM变化值阈值,返回步骤S2.5,得到新的分划;分划个数大于歌词行数的,减小BPM变化值阈值,返回步骤S2.5,得到新的分划;直到分划个数与歌词行数相等,进入步骤S3。步骤S3:基于词的歌词对齐及时间戳生成,具体包括以下步骤:步骤S3.1:将步骤S1分离出的人声转化为语谱图,具体地:步骤S3.1.1:预加重处理:其中为处理后的音频数据;步骤S3.1.2:以10ms为帧长进行分帧;步骤S3.1.3:对每一帧加窗,优选地,使用汉明窗;步骤S3.1.4:对每帧信号补零使其长度等于2的幂;步骤S3.1.5:对上述数据作DFT变换,并计算其功率谱;步骤S3.1.6:计算梅尔频率:Mel(M,N)=10log10(X(m,n)·X(m,n)T)其中m是帧个数,n为帧长,M为时间,N为频率,X(m,n)是经DFT变换得到的数据,符号T为转置符号,Mel(M,N)是所求的在给定时间及频率时的能量密度。步骤S3.1.7:对上述输出取对数;步骤S3.1.8:对S3.1.7本文档来自技高网...

【技术保护点】
1.一种基于语谱图识别的歌词时间戳生成方法,其特征在于,至少包括以下步骤:/n步骤S1:利用音频空间位置差异分离人声与伴奏;/n步骤S2:根据响度与BPM对处理后的音频作基于行的时间分割;/n步骤S3:将经步骤S2分割后的音频转化为语谱图,并利用图像识别对其进行基于单字的时间分割,得到所需的歌词时间戳;/n其中,所述步骤S1进一步包括:/n步骤S1.1:分别获取音频左右声道的音频信息,并对左声道音频作反转处理,反转处理公式如下:/n

【技术特征摘要】
1.一种基于语谱图识别的歌词时间戳生成方法,其特征在于,至少包括以下步骤:
步骤S1:利用音频空间位置差异分离人声与伴奏;
步骤S2:根据响度与BPM对处理后的音频作基于行的时间分割;
步骤S3:将经步骤S2分割后的音频转化为语谱图,并利用图像识别对其进行基于单字的时间分割,得到所需的歌词时间戳;
其中,所述步骤S1进一步包括:
步骤S1.1:分别获取音频左右声道的音频信息,并对左声道音频作反转处理,反转处理公式如下:



其中,代表左声道每个采样点反转后的信息,代表左声道每个原始采样点信息,即对应时间i下的振幅x;左声道每个采样点信息表示为:



其中表示位于中置声道的每个采样点信息,表示左声道中偏离中置声道的音频信息;
步骤S1.2:将反转后的左声道音频叠加至右声道上,得到远离中置声道的音频,其叠加公式如下:



式中为每个远离中置声道的音频采样点,为右声道每个采样点的原始数据,为左声道中偏离中置声道的音频信息;
步骤S1.3:依据上述得到的远离中置声道的音频作中置声道析取,得到中置声道音频,中置声道表达式为:






其中为每个位于中置声道音频信息的采样信息,sign(*)为符号函数,xi是原始音频合并左右声道合并后的采样点信息;
步骤S1.4:对得到的中置声道作滤波处理:



其中为滤波后得到的音频采样点信息,f(*)函数表示滤波函数;
步骤S1.5:对原始音频及上述步骤S1.4得到的音频作基音检测,基音检测公式如下:



其中T表示其间周期,τmin表示基音周期最小值,τmax表示基音周期最大值,argmin表示取最小自变量;
步骤S1.6:将两者基音作比较,判断差异点,并依据差异点返回步骤S1.4调整该时间范围内的滤波参数,最终得到分离后的人声
所述步骤S1.4进一步包括:
步骤S1.4.1:使用线性预测的方法估计噪声;
步骤S1.4.2:对原始音频及估计噪声作DFT处理,解得其功率谱;
步骤S1.4.3:对两者功率谱相减后求其二范数;
步骤S1.4.4:利用噪声相位作相位变换;
步骤S1.4.5:对最终结果作IDFT处理;
所述步骤S1.5进一步包括:
步骤S1.5.1:对输入的音频数据作DFT处理,得到其复数谱;
步骤S1.5.2:对复数谱的模长作平方运算,得到功率谱;
步骤S1.5.3:对功率谱取对数后作IDFT,最终得到其倒谱;
所述步骤S2进一步包括:
步骤S2.1:以音频响度为阈值分隔音频,并与输入的歌词行数作对比,得到基于行的分划Sj,j=1,2,…;
步骤S2.2:对每个分划Sj作BPM检测,其中BPM表示每分钟节拍数;
步骤S2.3:对BPM值突变的分划做出标记,记作
步骤S2.4:采用二分法,对每个标记的分划取时间中点为分划点作再分划并对每个分划再次检测BPM,直到BPM变化值小于给定值A或循环次数超过给定范围;如BPM变化值小于给定值,则取消该分划的标记,否则将BPM突变的点视作一个新的分划点,将原本标记的分划修改成两个新的分划;
步骤S2.5:对新的分划个数与歌词行数对比,其中,如果分划个数与...

【专利技术属性】
技术研发人员:鄢腊梅郑杰文蒋琤琤袁友伟王奕菲施振浪
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利