音频处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号：29931117 阅读：17 留言：0更新日期：2021-09-04 18:59

本发明专利技术的实施例提供了一种音频处理方法、装置、电子设备和计算机可读存储介质，涉及数据处理技术领域，方法包括：对待编码音频数据进行预处理，得到目标音频数据，通过对目标音频数据进行端点检测获得目标音频数据中每种类型的音频数据的起始点和终止点。提取每种类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息。进而对目标音频数据中设定类型的音频数据的采样点信息进行加速处理，基于设定类型的音频数据加速处理后的采样点信息，其他类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息，提取得到内容表征信息，从而提高音频压缩率。从而提高音频压缩率。从而提高音频压缩率。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置、电子设备和计算机可读存储介质

[0001]本专利技术涉及数据处理
，具体而言，涉及一种音频处理方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]人类能够听到的所有声音都称之为音频，它可能包括噪音等。声音被录制下来以后，无论是说话声、歌声、乐器都可以通过数字音频软件进行处理。音频的处理方式多种多样，其中，很多场景下都需要进行音频压缩。经研究发现，目前市面上的音频压缩大多采用信号编码相关的技术方案，类似的方案实现简单，压缩解压速度较快，但面临压缩率不够的缺点。

技术实现思路

[0003]本专利技术的目的之一包括，例如，提供了一种音频处理方法、装置、电子设备和计算机可读存储介质，以至少部分地提高音频的压缩率。
[0004]本专利技术的实施例可以这样实现：
[0005]第一方面，本专利技术提供一种音频处理方法，包括：
[0006]对待编码音频数据进行预处理，得到目标音频数据；
[0007]对所述目标音频数据进行端点检测，获得所述目标音频数据中每种类型的音频数据的起始点和终止点；
[0008]提取每种类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息；
[0009]对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理；
[0010]基于所述设定类型的音频数据加速处理后的采样点信息，其他类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息，提取得到内容表...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：对待编码音频数据进行预处理，得到目标音频数据；对所述目标音频数据进行端点检测，获得所述目标音频数据中每种类型的音频数据的起始点和终止点；提取每种类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息；对所述目标音频数据中设定类型的音频数据的采样点信息进行加速处理；基于所述设定类型的音频数据加速处理后的采样点信息，其他类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息，提取得到内容表征信息。2.根据权利要求1所述的音频处理方法，其特征在于，所述提取得到内容表征信息的步骤，包括：调用神经网络模型，所述神经网络模型包括采样层、全连接层和循环神经网络；将所述设定类型的音频数据加速处理后的采样点信息、其他类型的音频数据的采样点信息，以及每种类型的音频数据的起始点和终止点的时间戳信息输入所述采样层，对所述加速处理后的采样点信息进行信息抽取，获得响度信息、音高信息和内容信息，并对所述响度信息、音高信息和内容信息进行降采样，得到降采样后的响度信息、音高信息和内容信息；将降采样后的响度信息、音高信息和内容信息输入所述全连接层进行融合；将融合后的信息输入所述循环神经网络进行处理，得到内容表征信息。3.根据权利要求1所述的音频处理方法，其特征在于，所述音频数据的类型包括人声、噪声和静音，所述设定类型的音频数据为人声数据；所述人声数据的采样点信息为对所述人声数据的幅值的连续表达；静音数据的采样点信息为用于表征所述静音数据的设定数量个幅值；噪声数据的采样点信息为用于表征所述噪声数据的设定数量个幅值。4.根据权利要求1所述的音频处理方法，其特征在于，所述对待编码音频数据进行预处理，得到目标音频数据的步骤，包括：将待编码音频数据进行重采样；将重采样后的待编码音频数据进行降噪和去混响，得到目标音频数据。5.一种音频处理方法，其特征在于，包括：将内容表征信息输入神经网络模型，所述内容表征信息表征有音频数据的采样点信息、起始点和终止点的时间戳信息；根据所述内容表征信息复原得到设定类型的音频数据加速处理后的采样点信息；对复原得到的采样点信息进行平滑、反归一化和重采样，得到待还原音频数据；根据所述设定类型的音频数据的起始点和终止点的时间戳信息，在时间轴上对所述待还原音频数据进行处理，还原得到原始音频数据。6.根据权利要求5所述的音频处理方法，其特征在于，所述设定类型的音频数据包括人声数据，所述神经网络模型包括采样层、全连接层和循环神经网络，所述根据所述内容表征信息复原得到设定类型的音频数据加速处理后...

【专利技术属性】
技术研发人员：刘峰，陀得意，康世胤，游于人，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人