音频分析方法、装置、设备及存储介质制造方法及图纸

技术编号:37603030 阅读:28 留言:0更新日期:2023-05-18 11:54
本公开关于一种音频分析方法、装置、设备及存储介质,涉及计算机技术领域,用于解决通用技术在对终端的音频数据进行处理时准确率较低且成本较高的问题。该音频分析方法,包括:获取目标音频的干声音频数据;将干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;将干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;目标文本识别模型为基于目标音频的歌词信息训练得到的;确定干声音频数据的音频信号特征信息;根据目标音素时间序列、目标文字时间序列和音频信号特征信息,确定干声音频数据的音频分析结果。频分析结果。频分析结果。

【技术实现步骤摘要】
音频分析方法、装置、设备及存储介质


[0001]本公开涉及计算机
,尤其涉及一种音频分析方法、装置、设备及存储介质。

技术介绍

[0002]随着终端(例如手机)录制歌曲功能的广泛应用,对录制歌曲内的歌声进行智能评价、修饰和合成等的衍生功能也得到了普及。这些衍生功能在实现时,一般需要对歌声的特征进行准确地分析处理,以保证处理后的结果符合用户的主观感知。
[0003]由于对歌声的特征进行分析处理涉及的技术实现复杂度较高,通常需要占用较多的存储资源和计算资源等,通用技术中一般是采用将相关实现算法等资源文件部署在云端服务器中,通过云端服务器进行分析处理的方式。
[0004]这种依赖服务器进行处理的方式,需要将终端的数据传输至云端服务器,容易出现由数据传输错误导致的处理结果中时间和歌声错位的现象,造成分析结果的准确率较低,容易影响用户体验。并且,在海量用户并发使用的情况下,这种依赖服务器进行处理的方式对服务器的计算容量要求较高,容易导致较高的服务器的部署成本。

技术实现思路

[0005]本公开提供一种音频分析方法、装本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频分析方法,其特征在于,包括:获取目标音频的干声音频数据;将所述干声音频数据输入至目标音素识别模型中进行音素识别处理,得到目标音素时间序列;所述目标音素识别模型为基于多个语种进行同音合并后的音素集合训练得到的;所述目标音素时间序列包括所述干声音频数据中各音素发音时段对应的至少一个候选识别音素;将所述干声音频数据输入至目标文本识别模型中进行文本识别处理,得到目标文字时间序列;所述目标文本识别模型为基于所述目标音频的歌词信息训练得到的;所述目标文字时间序列包括所述干声音频数据中各文字发音时段对应的目标识别文字;确定所述干声音频数据的音频信号特征信息;根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果;所述音频分析结果用于表征所述目标音频的发音节奏、发音力度和发音精度。2.根据权利要求1所述的音频分析方法,其特征在于,所述确定所述干声音频数据的音频信号特征信息,包括:将所述干声音频数据划分为多个预设长度的音频数据帧;确定各所述音频数据帧的基音频率值和响度值,得到所述音频信号特征信息。3.根据权利要求2所述的音频分析方法,其特征在于,所述根据所述目标音素时间序列、所述目标文字时间序列和所述音频信号特征信息,确定所述干声音频数据的音频分析结果,包括:对所述目标文字时间序列进行音素切分处理,得到切分后音素时间序列;所述切分后音素时间序列包括各所述目标识别文字对应的至少一个切分后音素,以及各所述切分后音素的开始时刻和终止时刻;基于所述切分后音素时间序列和各所述音频数据帧的基音频率值,确定用于表征所述目标音频的发音节奏的节拍点时间序列;根据所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定所述节拍点时间序列中各音素的响度值,得到用于表征所述目标音频的发音力度的响度值时间序列;基于所述切分后音素时间序列和所述目标音素时间序列,确定用于表征所述目标音频的发音精度的精度值时间序列。4.根据权利要求3所述的音频分析方法,其特征在于,所述基于所述切分后音素时间序列和各所述音频数据帧的基音频率值,确定用于表征所述目标音频的发音节奏的节拍点时间序列,包括:将各所述切分后音素中预设类型音素的开始时刻确定为候选节拍点,得到与多个所述预设类型音素一一对应的多个所述候选节拍点;所述预设类型音素包括元音音素;基于各所述音频数据帧的基音频率值对多个所述候选节拍点进行更新处理,得到与多个所述预设类型音素一一对应的多个更新后节拍点;所述更新后节拍点对应的音频数据帧的基音频率值大于预设阈值;将多个所述预设类型音素的开始时刻对应调整为多个所述更新后节拍点,得到所述节
拍点时间序列。5.根据权利要求3所述的音频分析方法,其特征在于,所述根据所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧的响度值,确定所述节拍点时间序列中各音素的响度值,得到用于表征所述目标音频的发音力度的响度值时间序列,包括:按照响度值从大到小的顺序,对所述节拍点时间序列中各音素开始时刻和终止时刻之间的音频数据帧进行排序,得到所述节拍点时间序列中各音素对应的响度值排序结果;将各响度值排序结果中的前预设数量个响度值的平...

【专利技术属性】
技术研发人员:魏耀都郑羲光张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1