System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种使用音色克隆技术帮助残障人士发声的方法及系统技术方案_技高网

一种使用音色克隆技术帮助残障人士发声的方法及系统技术方案

技术编号:41899200 阅读:15 留言:0更新日期:2024-07-05 14:06
本发明专利技术涉及一种使用音色克隆技术帮助残障人士发声的方法及系统,方法包括以下步骤:采集多样化的音频样本,所述音频样本包括:含不同噪声类别的音频样本、情感表达不同的音频样本以及口音不同的音频样本;采用多样化的音频样本及文本数据训练大语言模型,得到能够理解和复制人类语音的复杂性和多样性的大语言模型;采集特定用户发声的语音样本,大语言模型通过语音样本进行个性化训练,完成个性化声音克隆。本发明专利技术可以解决现有技术中音色相似度不够、情感表现不足以及鲁棒性不好等问题。

【技术实现步骤摘要】

本专利技术涉及音色克隆,特别涉及一种使用音色克隆技术帮助残障人士发声的方法及系统


技术介绍

1、现有的音色克隆技术在模拟特定个体的声音时,往往难以达到令人满意的程度。例如:(1)音色相似度不够:个人的声音包含丰富的声学特征,包括但不限于音调、音量、音色和语速。现有技术往往无法全面捕捉到这些细微差别,导致克隆的音色与原声之间存在明显差异。(2)情感表现不足:人类的声音不仅仅是音频信号,还蕴含情感。现有方法在复制声音的同时,往往无法准确传达说话人的情绪状态,导致克隆音色缺乏自然感和真实性。(3)鲁棒性不好:残障人士的原始音频可能存在噪声和发音不清的问题,现有技术没有对这些问题做特别处理。

2、因此有必要提供一种使用音色克隆技术帮助残障人士发声的方法及系统,以解决现有技术中音色相似度不够、情感表现不足以及鲁棒性不好等问题。


技术实现思路

1、本专利技术的目的在于提供一种使用音色克隆技术帮助残障人士发声的方法及系统,以解决现有技术中音色相似度不够、情感表现不足以及鲁棒性不好等问题。

2、为了解决现有技术中存在的问题,本专利技术提供了一种使用音色克隆技术帮助残障人士发声的方法,包括以下步骤:

3、采集多样化的音频样本,所述音频样本包括:含不同噪声类别的音频样本、情感表达不同的音频样本以及口音不同的音频样本;

4、采用多样化的音频样本及文本数据训练大语言模型,得到能够理解和复制人类语音的复杂性和多样性的大语言模型;

5、采集特定用户发声的语音样本,大语言模型通过语音样本进行个性化训练,完成个性化声音克隆。

6、可选的,在所述使用音色克隆技术帮助残障人士发声的方法中,不同噪声类别的音频样本为噪声比例不同的音频样本。

7、可选的,在所述使用音色克隆技术帮助残障人士发声的方法中,情感表达不同的音频样本包括表达开心的音频样本、表达愤怒的音频样本、表达惊喜的音频样本、表达悲伤的音频样本以及表达憎恶的音频样本。

8、可选的,在所述使用音色克隆技术帮助残障人士发声的方法中,口音不同的音频样本包括普通话的音频样本以及各类方言的音频样本。

9、可选的,在所述使用音色克隆技术帮助残障人士发声的方法中,还包括对大语言模型进行微调,方式如下:

10、向大语言模型输入加噪声的音频样本、发音不清的音频样本和加噪声且发音不清的音频样本,结合无噪声且发音清晰的音频样本进行混合训练。

11、可选的,在所述使用音色克隆技术帮助残障人士发声的方法中,语音样本包括5分钟以上的发声语音和/或一句话的语音。

12、可选的,在所述使用音色克隆技术帮助残障人士发声的方法中,5分钟以上的发声语音为残障人士短暂的发声的组合。

13、本专利技术还提供了一种使用音色克隆技术帮助残障人士发声的系统,采用上述方法构建系统。

14、本专利技术与现有技术相比,存在以下优点:

15、(1)通过大语言模型架构的泛化能力,本专利技术能够为用户提供极其自然和真实的语音体验,并提高了语音中的情感表现能力等。

16、(2)本专利技术对噪声和发音不清的数据做了增强,无论输入的音频是否还有噪声、发音是否清楚,发声系统都能生成清晰且易于理解的语音,显著提升了语音输出的稳定性和可靠性,并提高了发声系统的鲁棒性。

17、(3)通过个性化声音克隆为残障人士提供了一种有效的声音恢复方案,本专利技术极大地增强了残障人士的社会交往能力,提高了独立生活的可能性,从而显著提升了用户的整体生活质量。

18、综上所述,本专利技术不仅解决了现有技术在音色相似度和稳定性方面的不足,而且通过提供一个高效、稳定且用户友好的音色克隆方法,为改善残障人士的语言交流和生活质量开辟了新的可能性。

本文档来自技高网...

【技术保护点】

1.一种使用音色克隆技术帮助残障人士发声的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,不同噪声类别的音频样本为噪声比例不同的音频样本。

3.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,情感表达不同的音频样本包括表达开心的音频样本、表达愤怒的音频样本、表达惊喜的音频样本、表达悲伤的音频样本以及表达憎恶的音频样本。

4.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,口音不同的音频样本包括普通话的音频样本以及各类方言的音频样本。

5.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,还包括对大语言模型进行微调,方式如下:

6.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,语音样本包括5分钟以上的发声语音和/或一句话的语音。

7.如权利要求6所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,5分钟以上的发声语音为残障人士短暂的发声的组合。

8.一种使用音色克隆技术帮助残障人士发声的系统,其特征在于,采用如权利要求1-7中任一项所述的方法构建系统。

...

【技术特征摘要】

1.一种使用音色克隆技术帮助残障人士发声的方法,其特征在于,包括以下步骤:

2.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,不同噪声类别的音频样本为噪声比例不同的音频样本。

3.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,情感表达不同的音频样本包括表达开心的音频样本、表达愤怒的音频样本、表达惊喜的音频样本、表达悲伤的音频样本以及表达憎恶的音频样本。

4.如权利要求1所述的使用音色克隆技术帮助残障人士发声的方法,其特征在于,口音不同的音频样本包括普通话的音频样...

【专利技术属性】
技术研发人员:郑俊杰陈子浩梁芸铭丁超凡
申请(专利权)人:巨人移动技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1