歌词文件的生成方法及装置制造方法及图纸

技术编号:13192105 阅读:40 留言:0更新日期:2016-05-11 19:31
本发明专利技术公开了一种歌词文件的生成方法及装置,属于音频处理技术领域。该方法包括:获取目标音频文件及参考音频文件,目标音频文件与参考音频文件为同一音频文件的不同版本;分别对目标音频文件和参考音频文件进行特征提取,得到第一音频特征和第二音频特征;根据第一音频特征和第二音频特征,计算目标音频文件与参考音频文件之间的时间偏差;根据时间偏差,调整参考音频文件对应歌词文件的时间戳,得到目标音频文件对应的歌词文件。本发明专利技术对于同一音频文件的不同版本,通过调整参考音频文件对应的歌词文件,即可为目标音频文件生成对应的歌词文件,无需重复生成多个歌词文件,提高了音频文件的制作效率,降低了制作成本。

【技术实现步骤摘要】

本专利技术涉及音频处理
,特别涉及一种歌词文件的生成方法及装置
技术介绍
随着音频处理技术的发展,用户对试听体验有了更高的要求,不仅要求音频播放 应用能够播放音频文件,还希望音频播放应用能够同步显示与音频文件相应的歌词文件。 为了满足用户的需求,现有技术主要采用人工方式为音频文件数据库中的每个音 频文件生成相应的歌词文件,并将所生成的歌词文件导入到音频播放应用中,从而在播放 音频文件时,同步显示相应地歌词文件。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题: 对于音频文件数据库中不同版本的音频文件,现有技术也会采用人工方式为每个 音频文件分别生成一个歌词文件,该过程效率较低、制作成本较高。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种歌词文件的生成方法及装 置。所述技术方案如下: -方面,提供了一种歌词文件的生成方法,所述方法包括: 获取目标音频文件及参考音频文件,所述目标音频文件与所述参考音频文件为同 一音频文件的不同版本; 分别对所述目标音频文件和所述参考音频文件进行特征提取,得到第一音频特征 和第二音频特征; 根据所述第一音频特征和所述第二音频特征,计算所述目标音频文件与所述参考 音频文件之间的时间偏差; 根据所述时间偏差,调整所述参考音频文件对应歌词文件的时间戳,得到所述目 标音频文件对应的歌词文件。 可选地,所述分别对所述目标音频文件和所述参考音频文件进行特征提取,得到 第一音频特征和第二音频特征,包括: 采用预设频率对所述目标音频文件进行重采样; 将重采样后的目标音频文件划分为多个音频片段,每个音频片段中包含预设数量 个采样点; 对于任意相邻的第一音频片段和第二音频片段,采用汉宁窗函数进行处理,得到 第一加窗音频片段和第二加窗音频片段; 对所述第一加窗音频片段和所述第二加窗音频片段分别进行快速傅里叶变换 FFT,得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的第二频谱; 对所述第一频谱和所述第二频谱分别进行映射,得到所述第一音频片段对应的多 个第一频率点和所述第二音频片段对应的多个第二频率点,所述第一频率点和所述第二频 率点的数量相同;根据所述多个第一频率点和多个所述第二频率点,获取所述第一音频片段的音频 特征值;对所述多个音频片段的音频特征值进行组合,得到所述第一音频特征。 可选地,所述对所述第一频谱和所述第二频谱分别进行映射,得到所述第一音频 片段对应的第一频率点和所述第二音频片段对应的第二频率点,包括: 对于所述第一频谱,根据所述预设数量个采样点和所述预设频率,计算每个采样 点对应的频率范围; 将小于指定范围的频率范围进行线性映射,得到多个线性频率点;将大于所述指定范围的频率范围,应用以下公式,进行对数映射,得到多个对数频 率占. 其中,示所述对数频率点,Bin表示大于所述指定范围的任一频率范围,Δ f表示相邻两个采样点对应的频率范围之间的频率间隔,fref表示参考频率,*表示乘号; 将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。 可选地,所述根据所述多个第一频率点和所述多个第二频率点,获取所述第一音 频片段的音频特征值,包括: 获取所述第一音频片段对应的每个第一频率点的能量值,并获取所述第二音频片 段对应的每个第二频率点的能量值; 获取所述第一音频片段上每个第一频率点的能量值与所述第二音频片段上位置 相同的第二频率点的能量值之差,作为所述第一音频片段的音频特征值。 可选地,所述根据所述第一音频特征和所述第二音频特征,计算所述目标音频文 件与所述参考音频文件之间的时间偏差,包括: 计算所述第一音频特征和所述第二音频特征之间的互相关函数; 根据所述互相关函数,计算所述第一音频特征和所述第二音频特征之间的时间偏 差,作为所述目标音频文件与所述参考音频文件之间的时间偏差。 可选地,所述计算所述第一音频特征和所述第二音频特征之间的互相关函数,包 括: 对于所述第一音频特征和所述第二音频特征,应用以下公式,计算所述互相关函 数: Rxy=IFFT(conj(FFT(x))*FFT(y)) 其中,X表示所述第一音频特征,y表示所述第二音频特征,Rxy表示所述互相关函 数,con j表示共辄运算符,IFFT表示反傅里叶变换,FFT表示傅里叶变换,*表示乘号。 可选地,所述根据所述互相关函数,计算所述第一音频特征和所述第二音频特征 之间的时间偏差,包括:计算所述互相关函数的最大值; 获取所述互相关函数的最大值对应的位置偏差; 对于所述位置偏差,应用以下公式,计算所述第一音频特征和所述第二音频特征 之间的时间偏差: i=m〇/ko 其中,τ表示所述第一音频特征和所述第二音频特征之间的时间偏差,mo表示所述 互相关函数的最大值所对应的位置偏差,ko表示所述预设频率,/表示除号。 另一方面,提供了一种歌词文件的生成装置,所述装置包括: 获取模块,用于获取目标音频文件及参考音频文件,所述目标音频文件与所述参 考音频文件为同一音频文件的不同版本; 提取模块,用于分别对所述目标音频文件和所述参考音频考文件进行特征提取, 得到第一音频特征和第二音频特征; 计算模块,用于根据所述第一音频特征和所述第二音频特征,计算所述目标音频 文件与所述参考音频文件之间的时间偏差; 调整模块,用于根据所述时间偏差,调整所述参考音频文件对应歌词文件的时间 戳,得到所述目标音频文件对应的歌词文件。 可选地,所述提取模块,用于采用预设频率对所述目标音频文件进行重采样;将重 采样后的目标音频文件划分为多个音频片段,每个音频片段中包含预设数量个采样点;对 于任意相邻的第一音频片段和第二音频片段,采用汉宁窗函数进行处理,得到第一加窗音 频片段和第二加窗音频片段;对所述第一加窗音频片段和所述第二加窗音频片段分别进行 快速傅里叶变换FFT,得到所述第一音频片段对应的第一频谱和所述第二音频片段对应的 第二频谱;对所述第一频谱和所述第二频谱分别进行映射,得到所述第一音频片段对应的 多个第一频率点和所述第二音频片段对应的多个第二频率点,所述第一频率点和所述第二 频率点的数量相同;根据所述多个第一频率点和多个所述第二频率点,获取所述第一音频 片段的音频特征值;对所述多个音频片段的音频特征值进行组合,得到所述第一音频特征。 可选地,所述提取模块,还用于对于所述第一频谱,根据所述预设数量个采样点和 所述预设频率,计算每个采样点对应的频率范围;将小于指定范围的频率范围进行线性映 射,得到多个线性频率点;将大于所述指定范围的频率范围,应用以下公式,进行对数映射, 得到多个对数频率点:其中,示所述对数频率点,Bin表示大于所述指定范围的任一频率范围,Δ f表示相邻两个采样点对应的频率范围之间的频率间隔,fref表示参考频率,*表示乘号; 将所述多个线性频率点和所述多个对数频率点作为所述多个第一频率点。可选地,所述提取模块,用于获取所述第一音频片段对应的每个第一频率点的能 量值,并获取所述第二音频片段对应的每个第二频率点的能量值;获取所述第一音频片段 上每个第一频率点的能量值与所述第二音频片段上位置相同的第二频率点的能量值之差, 作为所述第一音频片段的音频特征值。可选地,所述计本文档来自技高网...
歌词文件的生成方法及装置

【技术保护点】
一种歌词文件的生成方法,其特征在于,所述方法包括:获取目标音频文件及参考音频文件,所述目标音频文件与所述参考音频文件为同一音频文件的不同版本;分别对所述目标音频文件和所述参考音频文件进行特征提取,得到第一音频特征和第二音频特征;根据所述第一音频特征和所述第二音频特征,计算所述目标音频文件与所述参考音频文件之间的时间偏差;根据所述时间偏差,调整所述参考音频文件对应歌词文件的时间戳,得到所述目标音频文件对应的歌词文件。

【技术特征摘要】

【专利技术属性】
技术研发人员:武大伟
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1