语音处理方法、装置及网络设备制造方法及图纸

技术编号：34796522 阅读：35 留言：0更新日期：2022-09-03 20:01

本发明专利技术实施例提供了一种语音处理方法、装置及网络设备，该方法包括：获取待处理语音；对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音色，所述至少两个语音转换结果对应目标音色；将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。通过上述方案，可以防止音色转换过程中的语音失真情况的发生，还可以加速语音处理速度。还可以加速语音处理速度。还可以加速语音处理速度。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置及网络设备

[0001]本专利技术涉及计算机
，特别是涉及一种语音处理方法、装置及网络设备。

技术介绍

[0002]移动互联网时代是短视频+直播时代，比如电商直播或内容直播，是最具潜力的流量变现手段。在这种环境下，声音的意义更加凸显，传统变声器已非常普及，在直播、游戏、在线社交等场景运用广泛。
[0003]AI实时变声系统，除了效果碾压传统变声器外，还可以实现很多传统变声器不可能实现的功能，比如：克隆音色，变成任意想要变成的人的声音，以及普通话转为方言等，赋能直播，游戏以及所有在线社交场景。
[0004]语音转换(Voice Conversion，VC)或变声是指通过改变与源说话人的个性特征有关的声学特征参数，使声音听起来像是目标说话人的语音，而语义是不发生变化的。语音转换的方法，一般可以分为2大类，一类是平行语料，另一类是非平行语料。平行语料对训练数据的要求很严格，而且只能转换训练集内的人的音色，因此目前广泛使用的是非平行语料方法，即VC模型使用的方法，现有方法通过VC模型进行语音转...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取待处理语音；对所述待处理语音进行切割，得到至少两个第一语音片段，每两个相邻的第一语音片段之间具有部分重叠语音片段；对所述至少两个第一语音片段采用多线程并行处理方式进行语音转换处理，得到至少两个语音转换结果；所述至少两个第一语音片段对应源音色，所述至少两个语音转换结果对应目标音色；将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果。2.根据权利要求1所述的方法，其特征在于，针对每个第一语音片段，对所述第一语音片段进行语音转换处理，得到语音转换结果的过程，包括：将所述第一语音片段输入至语音识别模型中进行语音识别处理，得到语音后验概率PPG特征；将所述语音后验概率PPG特征和目标音色标识ID输入至语音转换模型中进行语音转换处理，得到语音转换结果。3.根据权利要求2所述的方法，其特征在于，所述多线程并行处理方式，包括：在所述至少两个第一语音片段中的第i个第一语音片段进行语音转换处理的过程中，同时进行所述至少两个第一语音片段中的第i+1个第一语音片段的语音识别处理，i为正整数。4.根据权利要求1所述的方法，其特征在于，在所述至少两个第一语音片段包括：第二语音片段和第三语音片段的情况下，所述将所述至少两个语音转换结果进行语音拼接处理，得到语音输出结果，包括：获取所述第二语音片段和所述第三语音片段的重叠语音片段的任意时刻与所述重叠语音片段的中间时刻的时间差；根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数；根据所述第二语音片段中任意时刻的第一子语音片段、所述第三语音片段中任意时刻的第二子语音片段、所述第一拼接系数以及所述第二拼接系数，对所述第二语音片段的语音转换结果和所述第三语音片段的语音转换结果进行语音拼接处理，得到语音输出结果。5.根据权利要求4所述的方法，其特征在于，所述根据所述时间差与预设调节系数，计算所述第二语音片段在所述任意时刻的第一拼接系数，以及所述第三语音片段在所述任意时刻的第二拼接系数，包括：时刻的第二拼接系数，包括：其中，C(t
‑
...

【专利技术属性】
技术研发人员：陈海涛，郭凯旋，甘文东，文博龙，闫影，李建伟，李海，
申请(专利权)人：成都爱奇艺智能创新科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人