音频处理方法、装置、存储介质和电子设备制造方法及图纸

技术编号:33115995 阅读:19 留言:0更新日期:2022-04-17 00:08
本公开的实施方式涉及数据处理技术领域,更具体地,涉及音频处理方法、装置、存储介质和电子设备。所述音频处理方法包括:提取原始音频的每个音频帧的声学特征;将所述声学特征输入神经网络模型,获得所述原始音频的各音频帧属于每种音频类型的概率序列;其中,所述神经网络模型用于预测每个所述音频帧属于各种所述音频类型的概率;根据所述概率序列对所述原始音频进行分段,获得所述原始音频中属于对应的音频类型的音频段。本公开能够自音频中高效、准确地识别出不同类型的音频段,以供针对某些特定类型的音频段进行处理,并且还能够智能地对指定类型的音频段进行变速播放,提升用户的使用体验,满足用户的个性化使用需求。满足用户的个性化使用需求。满足用户的个性化使用需求。

【技术实现步骤摘要】
音频处理方法、装置、存储介质和电子设备


[0001]本公开的实施方式涉及数据处理
,更具体地,本公开的实施方式涉及音频处理方法、装置、存储介质和电子设备。

技术介绍

[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前的音频处理方式,通常将整首音频作为整体进行统一处理,无法实现对音频中的某些特定片段进行处理。例如,目前的音频变速方式,通常对整首音频进行统一加速或减速,无法智能地对某些特定片段进行变速。

技术实现思路

[0004]在音频处理场景中,由于音频中包含不同类型的片段,例如包含音乐片段和人声片段,因此常存在对不同片段进行不同方式处理的多样化需求。
[0005]以音频变速场景为例。移动互联网流媒体时代,音频的消费越来越流行,用户习惯在手机App(Application,应用程序)上收听有声书、电台、播客等音频内容,不同用户对音频的播放速度需求可能各不相同。例如,有些用户希望对音频中的音乐片段进行加速播放,以节省时间;有些用户希望对音频中的音乐片段进行减速播放,以慢慢品味;有些用户希望对音频中的人声片段进行减速播放而对音乐片段进行加速播放,等等。
[0006]但是目前的音频处理方式,通常是将整首音频作为整体进行统一处理,无法智能地从音频中识别出特定片段,进行特定处理。
[0007]具体来说,以音频变速处理为例。目前的音频变速方式主要有两种:第一种,根据音乐节奏对音频进行变速处理。这种方法只能根据音频的音乐节奏对各个片段进行变速处理,不仅流程复杂、难以保证变速效果,也无法实现从音频中识别出特定片段,例如识别出人声片段进行处理。第二种,根据语音信号对音频进行变速处理。这种方法只能对整首音频的语音信号进行统一变速,同样无法实现自动地识别出某些特定片段进行变速处理,属于非智能的变速方法。
[0008]可见,目前的音频变速等音频处理方式,无法实现对音频的不同类型片段进行不同方式处理,无法满足用户的个性化使用需求。
[0009]本公开的实施方式即期望提供音频处理方法、装置、存储介质和电子设备,能够自音频中高效、准确地识别出不同类型的音频段,以供针对某些特定类型的音频段进行处理,并且能够智能地对指定类型的音频段进行变速播放,提升音频消费应用程序的用户的使用体验,满足用户的个性化使用需求,并提高音频消费应用程序的竞争力。
[0010]根据本公开的一个方面,提供一种音频处理方法,包括:提取原始音频的每个音频帧的声学特征;将所述声学特征输入神经网络模型,获得所述原始音频的各音频帧属于每种音频类型的概率序列;其中,所述神经网络模型用于预测每个所述音频帧属于各种所述
音频类型的概率;根据所述概率序列对所述原始音频进行分段,获得所述原始音频中属于对应的音频类型的音频段。
[0011]在本公开的一示例性实施例中,每个所述音频帧的声学特征由多维的特征向量表征;所述提取原始音频的每个音频帧的声学特征之后,还包括:对所述声学特征进行规整,使规整后的所述声学特征的每个维度的特征向量数据的均值为零。
[0012]在本公开的一示例性实施例中,所述对所述声学特征进行规整,包括:确定单位帧数;自所述原始音频的第一个音频帧起,以每所述单位帧数个音频帧为一组,根据每组音频帧对应的声学特征生成一个特征向量矩阵;在每个所述特征向量矩阵中,对每个所述维度的特征向量数据进行规整,使规整后的所述特征向量矩阵的每个所述维度的特征向量数据的均值为零。
[0013]在本公开的一示例性实施例中,所述提取原始音频的每个音频帧的声学特征,包括:沿时序方向,确定特征提取窗口的窗长和移动步长,所述移动步长小于所述窗长;对每个所述音频帧,采用所述特征提取窗口进行特征提取,以获得每个所述音频帧的声学特征。
[0014]在本公开的一示例性实施例中,所述神经网络模型包括:编码器模块,用于对输入的每个所述音频帧的声学特征进行编码处理,输出编码后的第一特征;注意力模块,与所述编码器模块连接,用于对所述第一特征进行加权处理,输出第二特征;全连接层,与所述注意力模块连接,用于对所述第二特征进行预测处理,输出每个所述音频帧属于各种所述音频类型的概率。
[0015]在本公开的一示例性实施例中,所述根据所述概率序列对所述原始音频进行分段,包括:对每种所述音频类型下的概率序列进行平滑处理;基于对应于每种所述音频类型的概率的预设阈值,根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段;对每种所述音频类型下的候选段,合并间隔小于间隔阈值的相邻候选段,并剔除长度小于长度阈值的候选段;根据每种所述音频类型下经过合并和剔除后剩余的候选段,对所述原始音频进行分段。
[0016]在本公开的一示例性实施例中,所述对每种所述音频类型下的概率序列进行平滑处理,包括:基于移动平均法,对每种所述音频类型下的概率序列进行平滑处理。
[0017]在本公开的一示例性实施例中,所述根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段,包括:根据对应于一当前音频类型的当前概率的预设阈值,遍历所述当前音频类型下的平滑处理后的概率序列,获得目标概率值组,每组所述目标概率值组由连续预定数量的大于所述当前概率的预设阈值的概率值组成;根据每组所述目标概率值组对应的起止帧,确定所述当前音频类型下的候选段。
[0018]在本公开的一示例性实施例中,所述获得所述原始音频中属于对应的音频类型的音频段之后,还包括:在所述原始音频的初始播放速度不同于目标播放速度的情况下,根据目标音频类型的目标播放速度,对所述原始音频中对应的音频段进行变速处理。
[0019]在本公开的一示例性实施例中,所述对所述原始音频中对应的音频段进行变速处理,包括:确定所述目标音频类型对应的音频段和播放速度不同的相邻音频段;基于变速不变调算法,对所述目标音频类型对应的音频段进行变速处理;以及,对所述播放速度不同的相邻音频段进行过渡处理。
[0020]在本公开的一示例性实施例中,所述对所述播放速度不同的相邻音频段进行过渡
处理,包括:确定每组所述相邻音频段相衔接的过渡段;根据每组所述相邻音频段的播放速度差,对对应的所述过渡段进行分段和播放速度渐变处理,使每个所述过渡段的首段的播放速度等于对应组的所述相邻音频段的前一音频段的播放速度、每个所述过渡段的尾段的播放速度等于对应组的所述相邻音频段的后一音频段的播放速度,且每个所述过渡段的相邻两段的播放速度差相等。
[0021]在本公开的一示例性实施例中,各种所述音频类型包括:仅含有音乐的音频类型、仅含有人声的音频类型和同时含有音乐和人声的音频类型;其中,含有人声的音频类型包括:含有说话人声的音频类型和含有唱歌人声的音频类型。
[0022]根据本公开的一个方面,提供一种音频处理装置,包括:特征提取模块,用于提取原始音频的每个音频帧的声学特征;概率预测模块,用于将所述声学特征输入神经网络模型,获得所述原始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:提取原始音频的每个音频帧的声学特征;将所述声学特征输入神经网络模型,获得所述原始音频的各音频帧属于每种音频类型的概率序列;其中,所述神经网络模型用于预测每个所述音频帧属于各种所述音频类型的概率;根据所述概率序列对所述原始音频进行分段,获得所述原始音频中属于对应的音频类型的音频段。2.如权利要求1所述的音频处理方法,其特征在于,每个所述音频帧的声学特征由多维的特征向量表征;所述提取原始音频的每个音频帧的声学特征之后,还包括:对所述声学特征进行规整,使规整后的所述声学特征的每个维度的特征向量数据的均值为零。3.如权利要求1所述的音频处理方法,其特征在于,所述神经网络模型包括:编码器模块,用于对输入的每个所述音频帧的声学特征进行编码处理,输出编码后的第一特征;注意力模块,与所述编码器模块连接,用于对所述第一特征进行加权处理,输出第二特征;全连接层,与所述注意力模块连接,用于对所述第二特征进行预测处理,输出每个所述音频帧属于各种所述音频类型的概率。4.如权利要求1所述的音频处理方法,其特征在于,所述根据所述概率序列对所述原始音频进行分段,包括:对每种所述音频类型下的概率序列进行平滑处理;基于对应于每种所述音频类型的概率的预设阈值,根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段;对每种所述音频类型下的候选段,合并间隔小于间隔阈值的相邻候选段,并剔除长度小于长度阈值的候选段;根据每种所述音频类型下经过合并和剔除后剩余的候选段,对所述原始音频进行分段。5.如权利要求1所述的音频处理方法,其特征在于,所述获得所述原始音频中属于对应的音频类型的音频段之后,还包括:在所述原始音频的初始播放速度不同于目标播放速度的情况下,根据目标音频类型的目标播放速度,...

【专利技术属性】
技术研发人员:潘颂声曹偲刘华平赵翔宇李鹏
申请(专利权)人:杭州网易云音乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1