音频处理方法、智能终端及存储介质技术

技术编号：38204841 阅读：11 留言：0更新日期：2023-07-21 16:50

本申请公开了一种音频处理方法、智能终端及存储介质，可应用于处理设备，S10：获取或确定单轨音频对应的声源位置信息；S20：根据所述声源位置信息，对所述单轨音频进行空间渲染，得到空间多轨音频；S30：播放所述空间多轨音频。通过上述方式，通过空间渲染将单轨音频渲染成多轨音频以进行音频播放，大大增强了音频播放时的立体空间感，而不会像端到端的语音合成模型一样生成单轨音频，所以提升了音频播放效果。效果。效果。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、智能终端及存储介质

[0001]本申请涉及智能终端
，具体涉及一种音频处理方法、智能终端及存储介质。

技术介绍

[0002]随着智能终端的快速发展，智能终端越来越智能，例如目标的智能终端能够播放合成语音，具体地，在高质量语音数据集的支撑下，基于端到端的语音合成模型可生成具备较高自然度的合成语音。然而，自合成语音从应用在智能终端上至今，合成语音的播放音效就一直是广大社会用户着重关注的问题。
[0003]方向在构思及实现本申请过程中，专利技术人发现至少存在如下问题：受限于语音合成过程中的单声道建模能力，多音轨音频在合成时会转换为单轨音频，使得合成音频都为单声道，会影响音频播放效果。
[0004]前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

技术实现思路

[0005]针对上述技术问题，本申请提供一种音频处理方法、智能终端及存储介质，可提升音频播放的效果。
[0006]为解决上述技术问题，本申请提供一种音频处理方法，可以应用于客户端，包括以下步骤：
[0007]S10：获取或确定单轨音频对应的声源位置信息；
[0008]S20：根据所述声源位置信息，对所述单轨音频进行空间渲染，得到空间多轨音频；
[0009]S30：播放所述空间多轨音频。
[0010]可选地，所述声源位置信息包括第一声源位置信息，所述步骤S20包括：
[0011]若所述单轨音频为多人单轨音频，则对所述多人单轨音频进行音频切分，得到至少一个单人单轨音...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，所述方法包括以下步骤：S10：获取或确定单轨音频对应的声源位置信息；S20：根据所述声源位置信息，对所述单轨音频进行处理，得到空间多轨音频；S30：播放所述空间多轨音频。2.如权利要求1所述的方法，其特征在于，所述声源位置信息包括第一声源位置信息，所述步骤S20包括：若所述单轨音频为多人单轨音频，则对所述多人单轨音频进行音频切分，得到至少一个单人单轨音频段；根据所述第一声源位置信息，对各所述单人单轨音频段分别进行空间渲染，得到至少一个单人多轨音频段；根据各所述单人多轨音频段在所述多人单轨音频中的时间顺序，依次拼接各所述单人多轨音频段，得到所述空间多轨音频。3.如权利要求1所述的方法，其特征在于，所述声源位置信息包括第二声源位置信息，所述步骤S20包括：若所述单轨音频为单人单轨音频，则对所述单人单轨音频进行人声分离，得到人声单轨音频和背景单轨音频；根据所述第二声源位置信息，分别对所述人声单轨音频和背景单轨音频进行空间渲染，得到渲染人声多轨音频和渲染背景多轨音频；将所述渲染人声多轨音频和所述渲染背景多轨音频拼接为所述空间多轨音频。4.如权利要求1所述的方法，其特征在于，所述步骤S10包括：将原始音频文本信息输入至预设语音合成模型，得到所述单轨音频以及所述单轨音频对应的声源位置信息；或对所述单轨音频进行声纹识别，得到对应的音频声源用户；确定所述音频声源用户对应的声源位置信息。5.如权利要求4所述的方法，其特征在于，所述确定所述音频声源用户对应的声源位置信息的步骤包括：响应于目标用户的声源位置选取操作，为所述音频声源用户匹配所述声源位置信息；或根据显示的目标用户对应的目标虚拟角色和所述音频声源用户对应的声源虚拟角色之间的相对位置，确定所述声源位置信息。6....

【专利技术属性】
技术研发人员：万彩艳，
申请(专利权)人：上海传英信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人