一种基于音频处理的云端服务器制造技术

技术编号:35540937 阅读:13 留言:0更新日期:2022-11-09 15:09
本发明专利技术提供了一种基于音频处理的云端服务器,属于电通信技术领域。通过获取待处理音频数据流,对音频数据流执行特征提取,得到全频谱信息;将全频谱信息分离,获取第一频谱信息以及第二频谱信息;将第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入;根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理,生成第一特征图像以及第二特征图像。通过对于音频执行的各个子频谱的分析以及类别处理执行基于神经网络的类别概率计算从而确定每个音频成分的所属类别,并基于所述不同的成分类别以及概率精准计算音频的推荐类别,从而实现了音频的精准智能推荐。推荐。推荐。

【技术实现步骤摘要】
一种基于音频处理的云端服务器


[0001]本专利技术涉及电通信
,具体而言,涉及一种基于音频处理的云端服务器。

技术介绍

[0002]随着科技的发展,智能耳机智能终端的使用越来越广泛,其所提供的服务也越来越丰富。当前音频应用程序,例如喜马拉雅等,作为一种新的音频收听平台,视频及作者较多,因此,如何从海量的音频中向用户推荐用户感兴趣的音频信息成为现有技术中亟待解决的技术问题之一。

技术实现思路

[0003]有鉴于此,本专利技术实施例的目的在于提供通过基于神经网络的类别概率计算从而确定每个音频成分的所属类别,并基于所述不同的成分类别以及概率精准计算音频的推荐类别,从而实现了音频的精准智能推荐。
[0004]本专利技术的第一方面提供了一种基于音频处理的云端服务器,所述云端服务器包括存储器以及处理器;所述处理器用于执行:获取待处理音频数据流,对所述音频数据流执行特征提取,得到全频谱信息;将所述全频谱信息分离,获取第一频谱信息以及第二频谱信息;将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入;根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理,生成第一特征图像以及第二特征图像;根据所述第一特征图像以及第二特征图像,确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数,并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量;根据所述音频类别向量,确定所述音频数据的最终类别;根据所述音频数据的最终类别,获取云端同类别的音频数据,并执行推荐下发至用户端。
[0005]进一步,根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理,生成第一特征图像以及第二特征图像,包括:基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以及第二频谱信息进行卷积处理之后,分别执行预定的池化操作,以生成第一特征图像以及第二特征图像;其中,所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理,以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。
[0006]进一步,根据所述第一特征图像以及第二特征图像,确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数,并基于所述每个子特征对应的
子音频类别确定所述音频数据流对应的音频类别向量,包括:将所述每个子特征执行分类处理,获取得到每个子特征对应的所有音频类别的概率系数,以生成第一概率矩阵以及第二概率矩阵;根据所述第一特征图像以及第二特征图像,确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵;根据所述第一概率矩阵、第一权重矩阵,确定第一频谱信息的第一子音频类别向量;根据所述第二概率矩阵、第二权重矩阵,确定第二频谱信息的第二子音频类别向量。
[0007]进一步,所述第一特征图像以及第二特征图像包括通道数、时间轴维度、频谱的频率维度;将所述每个子特征执行分类处理,获取得到每个子特征对应的所有音频类别的概率系数,以生成第一概率矩阵以及第二概率矩阵,包括:基于如下计算方式获取第一概率矩阵C1以及第二概率矩阵C2:其中,L表示音频类别总数;表示第一特征图像以及第二特征图像的通道序号;i表示第一特征图像以及第二特征图像在时间维度上的序号;表示第一概率矩阵C1中的第行第i列的概率系数;表示第二概率矩阵C2中的第行第i列的概率系数;表示第一特征图像T1中的第行第i列的特征系数;表示第二特征图像T2中的第行第i列的特征系数。
[0008]进一步,根据所述第一特征图像以及第二特征图像,确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵,包括:基于如下计算方式获取第一权重矩阵A1、第二权重矩阵A2:其中,表示第一特征图像以及第二特征图像的通道序号;i表示第一特征图像以
及第二特征图像在时间维度上的序号;表示第一特征图像以及第二特征图像在时间轴方向上的维度;表示第一权重矩阵A1中的第行第i列的权重系数;表示第二权重矩阵A2中的第行第i列的权重系数;表示第一特征图像T1中的第行第i列的特征系数;表示第二特征图像T2中的第行第i列的特征系数。
[0009]进一步,根据所述第一概率矩阵、第一权重矩阵,确定第一频谱信息的第一子音频类别向量;根据所述第二概率矩阵、第二权重矩阵,确定第二频谱信息的第二子音频类别向量,包括:根据第一概率矩阵C1与第一权重矩阵A1的每一行向量进行相乘,得到第一子音频类别向量;根据第一概率矩阵C2与第一权重矩阵A2的每一行向量进行相乘,得到第二子音频类别向量;所述根据所述音频类别向量,确定所述音频数据的最终类别,包括:根据预定的第一频谱信息以及第二频谱信息的权重影响因子,以及第一子音频类别向量、第二子音频类别向量,进行加权计算获取得到所述音频数据流对于不同音频类别的概率大小,将最大的概率对应的类别确定为所述音频数据的最终类别。
[0010]进一步,所述S5,根据所述音频数据的最终类别,获取云端同类别的音频数据,并执行推荐下发至用户端,包括:根据所述音频数据的最终类别以及用户身份信息,确定适合用户身份信息的同类别的音频数据,并生成音频播放列表,发送至用户端;用户端监测到当前音频数据流播放结束,基于所述音频播放列表,选择音频播放文件,并执行播放。
[0011]本专利技术的第二方面提供一种基于云端服务器的音频智能处理系统,所述系统包括:获取模块,获取待处理音频数据流,对所述音频数据流执行特征提取,得到全频谱信息;分离模块,将所述全频谱信息分离,获取第一频谱信息以及第二频谱信息;将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入;生成模块,根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理,生成第一特征图像以及第二特征图像;确定模块,根据所述第一特征图像以及第二特征图像,确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数,并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量;根据所述音频类别向量,确定所述音频数据的最终类别;推荐模块,根据所述音频数据的最终类别,获取云端同类别的音频数据,并执行推荐下发至用户端。
[0012]进一步,所述生成模块,还用于:基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以
及第二频谱信息进行卷积处理之后,分别执行预定的池化操作,以生成第一特征图像以及第二特征图像;其中,所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理,以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。
[0013]进一步,所述确定模块,还用于:生成子模块,将所述每个子特征执行分类处理,获取得到每个子特征对应的所有音频类别的概率系数,以生成第一概率矩阵以及第二概率矩阵;第一确定子模块,根据所述第一特征图像以及第二特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于音频处理的云端服务器,其特征在于,所述云端服务器包括存储器以及处理器;所述处理器用于执行:获取待处理音频数据流,对所述音频数据流执行特征提取,得到全频谱信息;将所述全频谱信息分离,获取第一频谱信息以及第二频谱信息;将所述第一频谱信息以及第二频谱信息分别作为第一卷积神经网络以及第二卷积神经网络的输入;根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理,生成第一特征图像以及第二特征图像;根据所述第一特征图像以及第二特征图像,确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数,并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量;根据所述音频类别向量,确定所述音频数据的最终类别;根据所述音频数据的最终类别,获取云端同类别的音频数据,并执行推荐下发至用户端。2.根据权利要求1所述的基于音频处理的云端服务器,其特征在于,所述根据所述第一卷积神经网络以及第二卷积神经网络分别对第一频谱信息以及第二频谱信息进行处理,生成第一特征图像以及第二特征图像,包括:基于第一卷积神经网络以及第二卷积神经网络的卷积层分别对第一频谱信息以及第二频谱信息进行卷积处理之后,分别执行预定的池化操作,以生成第一特征图像以及第二特征图像;其中,所述预定的池化操作包括沿所述音频数据流的频率特征执行的均值池化处理,以由所述第一卷积神经网络以及第二卷积神经网络的输出层分别输出第一特征图像以及第二特征图像。3.根据权利要求2所述的基于音频处理的云端服务器,其特征在于,所述根据所述第一特征图像以及第二特征图像,确定所述第一特征图像以及第二特征图像对应的每个子特征所对应的子音频类别系数,并基于所述每个子特征对应的子音频类别确定所述音频数据流对应的音频类别向量,包括:将所述每个子特征执行分类处理,获取得到每个子特征对应的所有音频类别的概率系数,以生成第一概率矩阵以及第二概率矩阵;根据所述第一特征图像以及第二特征图像,确定第一概率矩阵、第二概率矩阵对应的第一权重矩阵、第二权重矩阵;根据所述第一概率矩阵、第一权重矩阵,确定第一频谱信息的第一子音频类别向量;根据所述第二概率矩阵、第二权重矩阵,确定第二频谱信息的第二子音频类别向量。4.根据权利要求3所述的基于音频处理的云端服务器,其特征在于,所述第一特征图像以及第二特征图像包括通道数、时间轴维度、频谱的频率维度;所述将所述每个子特征执行分类处理,获取得到每个...

【专利技术属性】
技术研发人员:高安芳穆天睿
申请(专利权)人:甘肃米笛声学有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1