音频处理方法、装置、存储介质和电子设备制造方法及图纸

技术编号：33115995 阅读：19 留言：0更新日期：2022-04-17 00:08

本公开的实施方式涉及数据处理技术领域，更具体地，涉及音频处理方法、装置、存储介质和电子设备。所述音频处理方法包括：提取原始音频的每个音频帧的声学特征；将所述声学特征输入神经网络模型，获得所述原始音频的各音频帧属于每种音频类型的概率序列；其中，所述神经网络模型用于预测每个所述音频帧属于各种所述音频类型的概率；根据所述概率序列对所述原始音频进行分段，获得所述原始音频中属于对应的音频类型的音频段。本公开能够自音频中高效、准确地识别出不同类型的音频段，以供针对某些特定类型的音频段进行处理，并且还能够智能地对指定类型的音频段进行变速播放，提升用户的使用体验，满足用户的个性化使用需求。满足用户的个性化使用需求。满足用户的个性化使用需求。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、存储介质和电子设备

[0001]本公开的实施方式涉及数据处理
，更具体地，本公开的实施方式涉及音频处理方法、装置、存储介质和电子设备。

技术介绍

[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。
[0003]目前的音频处理方式，通常将整首音频作为整体进行统一处理，无法实现对音频中的某些特定片段进行处理。例如，目前的音频变速方式，通常对整首音频进行统一加速或减速，无法智能地对某些特定片段进行变速。

技术实现思路

[0004]在音频处理场景中，由于音频中包含不同类型的片段，例如包含音乐片段和人声片段，因此常存在对不同片段进行不同方式处理的多样化需求。
[0005]以音频变速场景为例。移动互联网流媒体时代，音频的消费越来越流行，用户习惯在手机App(Application，应用程序)上收听有声书、电台、播客等音频内容，不同用户对音频的播放速度需求可能各不相同。例如，有些用户希望对音频中的音乐片段进行加速播放，以节省时间；有些用户希望对音频中的音乐片段进行减速播放，以慢慢品味；有些用户希望对音频中的人声片段进行减速播放而对音乐片段进行加速播放，等等。
[0006]但是目前的音频处理方式，通常是将整首音频作为整体进行统一处理，无法智能地从音频中识别出特定片段，进行特定处理。
[0007]具体来说，以音频变速处理为例。目前的音频变速方式主要有两种：第一种，根据音乐节奏对音频进行变速处...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：提取原始音频的每个音频帧的声学特征；将所述声学特征输入神经网络模型，获得所述原始音频的各音频帧属于每种音频类型的概率序列；其中，所述神经网络模型用于预测每个所述音频帧属于各种所述音频类型的概率；根据所述概率序列对所述原始音频进行分段，获得所述原始音频中属于对应的音频类型的音频段。2.如权利要求1所述的音频处理方法，其特征在于，每个所述音频帧的声学特征由多维的特征向量表征；所述提取原始音频的每个音频帧的声学特征之后，还包括：对所述声学特征进行规整，使规整后的所述声学特征的每个维度的特征向量数据的均值为零。3.如权利要求1所述的音频处理方法，其特征在于，所述神经网络模型包括：编码器模块，用于对输入的每个所述音频帧的声学特征进行编码处理，输出编码后的第一特征；注意力模块，与所述编码器模块连接，用于对所述第一特征进行加权处理，输出第二特征；全连接层，与所述注意力模块连接，用于对所述第二特征进行预测处理，输出每个所述音频帧属于各种所述音频类型的概率。4.如权利要求1所述的音频处理方法，其特征在于，所述根据所述概率序列对所述原始音频进行分段，包括：对每种所述音频类型下的概率序列进行平滑处理；基于对应于每种所述音频类型的概率的预设阈值，根据平滑处理后的所述概率序列确定每种所述音频类型下的候选段；对每种所述音频类型下的候选段，合并间隔小于间隔阈值的相邻候选段，并剔除长度小于长度阈值的候选段；根据每种所述音频类型下经过合并和剔除后剩余的候选段，对所述原始音频进行分段。5.如权利要求1所述的音频处理方法，其特征在于，所述获得所述原始音频中属于对应的音频类型的音频段之后，还包括：在所述原始音频的初始播放速度不同于目标播放速度的情况下，根据目标音频类型的目标播放速度，...

【专利技术属性】
技术研发人员：潘颂声，曹偲，刘华平，赵翔宇，李鹏，
申请(专利权)人：杭州网易云音乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人