一种用于实时情感语音转换的方法及系统技术方案

技术编号:38231557 阅读:10 留言:0更新日期:2023-07-25 17:59
本申请实施例涉及音频处理技术领域,尤其涉及一种用于实时情感语音转换的方法及系统。本发明专利技术具体包括步骤一、实时采集用户录入语音数据;步骤二、将用户录入语音数据传送至模型文件中进行预处理;步骤三、待预处理完成后进行音频输出。本发明专利技术所述实时情感语音转换方法,将用户音色文件针对性匹配模型文件进行预处理,不同模型文件对应不同的待匹配音色数据,用以帮助用户自由选择音色,提高用户体验。提高用户体验。提高用户体验。

【技术实现步骤摘要】
一种用于实时情感语音转换的方法及系统


[0001]本申请实施例涉及音频处理
,尤其涉及一种用于实时情感语音转换的方法及系统。

技术介绍

[0002]传统的语音转换方法中通常采集用户输入的语音数据,并将采集的语音数据转换为二进制数据后,建立基于数据传输的网络请求,之后将服务端的用户语音数据进行转换并反馈至客户端输出。但是此种语音转换方法的语音转换质量,取决于网络传输的质量,在单一的网络传输调制参数下,无法适应多种语音转换质量的传输要求。从而由于不同用户输入的语音数据质量不同,导致语音数据传输质量不同,最终导致语音转换的自然度不足,并存在输出的语音声调单一情感体验差的问题。
[0003]公开号为CN113689867B的中国专利,提供了一种语音转换模型的预处理方法、装置、电子设备及介质,此专利通过提取原始声学中的隐特征,用以进一步提高原始声学与预测声学之间的匹配度。公开号为CN112116904B的中国专利,提供了一种语音转换方法、装置、设备及存储介质,此专利中针对原始语音可以同时进行语音与语种的转换。但是上述专利中并未明确说明匹配完成或语音转换后,针对原始声学中质量较差的信息,如何进一步进行声学质量增强。
[0004]因此,针对现有的语音转换技术中存在的问题,本专利技术中提供了一种用于实时情感语音转换的方法及系统

技术实现思路

[0005]针对上述存在的问题,本专利技术第一方面提供了用于实时情感语音转换的方法,具体包括步骤一、实时采集用户录入语音数据;步骤二、将用户录入语音数据传送至模型文件中进行预处理;步骤三、待预处理完成后进行音频输出。
[0006]优选的,所述步骤二将用户录入语音数据传送至模型文件中进行预处理中,对用户录入语音数据进行用户编号,并根据用户编号针对下发音色文件。
[0007]优选的,校验所述模型文件是否存在,若是,则将音色文件传送至模型文件中进行预处理;若否,则反馈模型文件导入错误。
[0008]优选的,所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择。
[0009]优选的,根据所述采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色质量切换。
[0010]优选的,所述实时情感语音转换中,用户通过切换不同波特率数值进行不同音色质量的实时切换,切换速率在40ms

60ms之间。
[0011]优选的,所述不同音色质量的实时切换中,建立背景噪声分离方法提取用户音色文件,对音色文件中声音质量进行判断,对不符合判断标准的音色文件自适应调整波特率
数值,并进行音色质量增强。
[0012]本专利技术第二方面提供了一种用于实时情感语音转换的系统,具体包括资源模块、预处理模块、转换模块。
[0013]优选的,所述预处理模块中包括声音库,所述声音库中存储待用户转换的模型文件。
[0014]优选的,所述转换模块,根据用户需求进行音色参数调节,并进行待转换音色的自定义定制。
[0015]与现有技术相比,本专利技术的有益效果在于:
[0016](1)本专利技术所述实时情感语音转换方法,将用户音色文件针对性匹配模型文件进行预处理,不同模型文件对应不同的待匹配音色数据,用以帮助用户自由选择音色,提高用户体验。
[0017](2)在(1)的基础上,本专利技术中通过采样域的选择进行数据传输波特率的切换,从而进行音色质量的切换。针对不同的用户语音转换质量需求,以及不同的录音场景,动态的进行语音转换质量的优化,从而进一步提高用户语音转换的自然度。
[0018](3)在(2)的基础上,本专利技术通过建立背景噪声分离方法提取用户音色文件,用以满足多场景下的语音转换与输出质量,提高用户语音识别精度。
[0019](4)在(3)的基础上,本专利技术对不符合判断标准的音色文件,自适应调整波特率数值,并进行音色质量增强,从而进一步克服由于不同用户输入的语音数据中,指定频段下的语音质量不同,导致语音数据传输质量不同,最终导致语音转换的自然度不足,并存在输出的语音声调单一情感体验差的问题。
[0020](5)在(4)的基础上,本专利技术中建立了用于实时情感语音转换的系统,所述系统中可根据用户需求自定义进行待转换语音的设置,从而满足用户的个性化需求,提高语音转换系统的应用范围。
附图说明
[0021]图1为一种用于实时情感语音转换的方法流程图。
具体实施方式
[0022]实施例:
[0023]本实施例中第一方面提供了用于实时情感语音转换的方法,如图1所示,具体包括:
[0024]步骤一、实时采集用户录入语音数据;
[0025]步骤二、将用户录入语音数据传送至模型文件中进行预处理;其中,所述预处理的具体流程为:
[0026]S1、对用户录入语音数据进行用户编号,并根据用户编号针对下发音色文件;
[0027]S2、校验所述模型文件是否存在,若是,则将音色文件传送至模型文件中进行预处理;若否,则反馈模型文件导入错误;
[0028]S3、所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择;
[0029]S5、所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择;
[0030]S6、根据所述采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色质量切换;
[0031]S7、所述实时情感语音转换中,用户通过切换不同波特率数值进行不同音色质量的实时切换,切换速率为50ms;
[0032]S8、所述不同音色质量的实时切换中,建立背景噪声分离方法提取用户音色文件,对音色文件中声音质量进行判断,对不符合判断标准的音色文件自适应调整波特率数值,并进行音色质量增强;
[0033]进一步的,所述背景噪声分离方法中,将采集的用户录入语音数据转换为语音特征,并对所述语音特征进行筛选,在所述语音特征筛选中,提取语音特征中语音频域信息的幅值数据与相位数据,并根据幅值数据与相位数据的分布特点,进行语音特征与噪声的区分筛选,同时将所述幅值数据与相位数据根据其分布程度建立分布系数,根据分布系数对语音特征进行进一步放大,并对噪声进行进一步缩小,从而提高背景噪声分离的清晰度。
[0034]进一步的,所述对音色文件中声音质量进行判断中,具体的判断方式为:针对用户录入的音色文件,将音色文件划分为多个音色频段,对各音色频段进行声音质量判断,并根据声音质量判断结果将音色文件中的各音色频段划分至对应的采样域中,不同采样域在声音信号传播过程中对应不同的波特率,而不同的波特率决定声音信号的传播质量,通过对不同音色质量下的音色频段在声音传播过程中实时进行波特率的动态调整,从而保证转换后的音色质量保持稳定输出。
[0035]更进一步的,将本专利技术所述声音质量判断应用于实时情感语音转换的方法中,用以克服用户在进行语音转换时,由于情感的变换,造成音色文件各音色频段中声音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于实时情感语音转换的方法,其特征在于,具体包括步骤一、实时采集用户录入语音数据;步骤二、将用户录入语音数据传送至模型文件中进行预处理;步骤三、待预处理完成后进行音频输出。2.根据权利要求1所述用于实时情感语音转换的方法,其特征在于,所述步骤二将用户录入语音数据传送至模型文件中进行预处理中,对用户录入语音数据进行用户编号,并根据用户编号针对下发音色文件。3.根据权利要求2所述用于实时情感语音转换的方法,其特征在于,校验所述模型文件是否存在,若是,则将音色文件传送至模型文件中进行预处理;若否,则反馈模型文件导入错误。4.根据权利要求3所述用于实时情感语音转换的方法,其特征在于,所述将音色文件传送至模型文件中进行预处理中,根据音色质量进行采样域的选择。5.根据权利要求4所述用于实时情感语音转换的方法,其特征在于,根据所述采样域的选择,进行数据传输波特率的同步切换,根据波特率的同步切换进行音色...

【专利技术属性】
技术研发人员:冯超徐颖凌天格
申请(专利权)人:上海格子互动信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1