音频处理方法、智能终端及存储介质技术

技术编号:38204841 阅读:11 留言:0更新日期:2023-07-21 16:50
本申请公开了一种音频处理方法、智能终端及存储介质,可应用于处理设备,S10:获取或确定单轨音频对应的声源位置信息;S20:根据所述声源位置信息,对所述单轨音频进行空间渲染,得到空间多轨音频;S30:播放所述空间多轨音频。通过上述方式,通过空间渲染将单轨音频渲染成多轨音频以进行音频播放,大大增强了音频播放时的立体空间感,而不会像端到端的语音合成模型一样生成单轨音频,所以提升了音频播放效果。效果。效果。

【技术实现步骤摘要】
音频处理方法、智能终端及存储介质


[0001]本申请涉及智能终端
,具体涉及一种音频处理方法、智能终端及存储介质。

技术介绍

[0002]随着智能终端的快速发展,智能终端越来越智能,例如目标的智能终端能够播放合成语音,具体地,在高质量语音数据集的支撑下,基于端到端的语音合成模型可生成具备较高自然度的合成语音。然而,自合成语音从应用在智能终端上至今,合成语音的播放音效就一直是广大社会用户着重关注的问题。
[0003]方向在构思及实现本申请过程中,专利技术人发现至少存在如下问题:受限于语音合成过程中的单声道建模能力,多音轨音频在合成时会转换为单轨音频,使得合成音频都为单声道,会影响音频播放效果。
[0004]前面的叙述在于提供一般的背景信息,并不一定构成现有技术。

技术实现思路

[0005]针对上述技术问题,本申请提供一种音频处理方法、智能终端及存储介质,可提升音频播放的效果。
[0006]为解决上述技术问题,本申请提供一种音频处理方法,可以应用于客户端,包括以下步骤:
[0007]S10:获取或确定单轨音频对应的声源位置信息;
[0008]S20:根据所述声源位置信息,对所述单轨音频进行空间渲染,得到空间多轨音频;
[0009]S30:播放所述空间多轨音频。
[0010]可选地,所述声源位置信息包括第一声源位置信息,所述步骤S20包括:
[0011]若所述单轨音频为多人单轨音频,则对所述多人单轨音频进行音频切分,得到至少一个单人单轨音频段;
[0012]根据所述第一声源位置信息,对各所述单人单轨音频段分别进行空间渲染,得到至少一个单人多轨音频段;
[0013]根据各所述单人多轨音频段在所述多人单轨音频中的时间顺序,依次拼接各所述单人多轨音频段,得到所述空间多轨音频。
[0014]可选地,所述声源位置信息包括第二声源位置信息,所述步骤S20包括:
[0015]若所述单轨音频为单人单轨音频,则对所述单人单轨音频进行人声分离,得到人声单轨音频和背景单轨音频;
[0016]根据所述第二声源位置信息,分别对所述人声单轨音频和背景单轨音频进行空间渲染,得到渲染人声多轨音频和渲染背景多轨音频;
[0017]将所述渲染人声多轨音频和所述渲染背景多轨音频拼接为所述空间多轨音频。
[0018]可选地,所述步骤S10包括:
[0019]将原始音频文本信息输入至预设语音合成模型,得到所述单轨音频以及所述单轨音频对应的声源位置信息;或
[0020]对所述单轨音频进行声纹识别,得到对应的音频声源用户;确定所述音频声源用户对应的声源位置信息。
[0021]可选地,所述确定所述音频声源用户对应的声源位置信息的步骤包括:
[0022]响应于目标用户的声源位置选取操作,为所述音频声源用户匹配所述声源位置信息;或
[0023]根据显示的目标用户对应的目标虚拟角色和所述音频声源用户对应的声源虚拟角色之间的相对位置,确定所述声源位置信息。
[0024]可选地,所述根据所述第一声源位置信息,对各所述单人单轨音频段分别进行空间渲染,得到至少一个单人多轨音频段的步骤包括:
[0025]根据所述第一声源位置信息对应的声源方位,检测各所述单人单轨音频段是否均位于第一目标音频方位;
[0026]若是,则将各所述单人单轨音频段共同渲染至所述第一目标音频方位;
[0027]根据所述第一声源位置信息对应的声源距离,将各所述单人单轨音频段分别渲染对应的第一音频音量,得到至少一个单人多轨音频段。
[0028]可选地,所述根据所述第二声源位置信息,分别对所述人声单轨音频和背景单轨音频进行空间渲染,得到渲染人声多轨音频和渲染背景多轨音频的步骤包括:
[0029]根据所述第二声源位置信息,确定所述人声单轨音频和所述背景单轨音频共同对应的第二目标音频方位;
[0030]将所述人声单轨音频和所述背景单轨音频的音频方位分别渲染至所述第二目标音频方位,得到所述渲染人声多轨音频和所述渲染背景多轨音频。
[0031]可选地,在所述将所述人声单轨音频和所述背景单轨音频的音频方位分别渲染至所述第二目标音频方位,得到所述渲染人声多轨音频和所述渲染背景多轨音频的步骤之前,还包括:
[0032]根据所述背景单轨音频对应的音量渲染标识,为所述背景单轨音频匹配对应的预设音量渲染方式;
[0033]根据所述预设音量渲染方式,渲染所述背景单轨音频的第二音频音量。
[0034]本申请还提供一种智能终端,包括:存储器、处理器,其中,所述存储器上存储有音频播放程序,所述音频播放程序被所述处理器执行时实现如上任一所述音频处理方法的步骤。
[0035]本申请还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述音频处理方法的步骤。
[0036]如本文所述,本申请的音频处理方法,包括获取或确定单轨音频对应的声源位置信息;根据所述声源位置信息,对所述单轨音频进行处理,得到空间多轨音频;播放所述空间多轨音频。
[0037]依据上述技术方案,可以通过空间渲染将单轨音频渲染成多轨音频以进行音频播放,大大增强了音频播放时的立体空间感,而不会像端到端的语音合成模型一样生成单轨音频,所以提升了音频播放效果。
附图说明
[0038]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为实现本申请各个实施例的一种智能终端的硬件结构示意图;
[0040]图2为本申请实施例提供的一种通信网络系统架构图;
[0041]图3是根据第一实施例示出的音频处理方法的流程示意图;
[0042]图4是虚拟场景下空间多轨音频的多个相对空间位置的示意图;
[0043]图5是现实场景下空间多轨音频的多个虚拟空间位置的示意图;
[0044]图6是根据第二实施例示出的音频处理方法的流程示意图。
[0045]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0046]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括以下步骤:S10:获取或确定单轨音频对应的声源位置信息;S20:根据所述声源位置信息,对所述单轨音频进行处理,得到空间多轨音频;S30:播放所述空间多轨音频。2.如权利要求1所述的方法,其特征在于,所述声源位置信息包括第一声源位置信息,所述步骤S20包括:若所述单轨音频为多人单轨音频,则对所述多人单轨音频进行音频切分,得到至少一个单人单轨音频段;根据所述第一声源位置信息,对各所述单人单轨音频段分别进行空间渲染,得到至少一个单人多轨音频段;根据各所述单人多轨音频段在所述多人单轨音频中的时间顺序,依次拼接各所述单人多轨音频段,得到所述空间多轨音频。3.如权利要求1所述的方法,其特征在于,所述声源位置信息包括第二声源位置信息,所述步骤S20包括:若所述单轨音频为单人单轨音频,则对所述单人单轨音频进行人声分离,得到人声单轨音频和背景单轨音频;根据所述第二声源位置信息,分别对所述人声单轨音频和背景单轨音频进行空间渲染,得到渲染人声多轨音频和渲染背景多轨音频;将所述渲染人声多轨音频和所述渲染背景多轨音频拼接为所述空间多轨音频。4.如权利要求1所述的方法,其特征在于,所述步骤S10包括:将原始音频文本信息输入至预设语音合成模型,得到所述单轨音频以及所述单轨音频对应的声源位置信息;或对所述单轨音频进行声纹识别,得到对应的音频声源用户;确定所述音频声源用户对应的声源位置信息。5.如权利要求4所述的方法,其特征在于,所述确定所述音频声源用户对应的声源位置信息的步骤包括:响应于目标用户的声源位置选取操作,为所述音频声源用户匹配所述声源位置信息;或根据显示的目标用户对应的目标虚拟角色和所述音频声源用户对应的声源虚拟角色之间的相对位置,确定所述声源位置信息。6....

【专利技术属性】
技术研发人员:万彩艳
申请(专利权)人:上海传英信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1