一种用于多角色声音的克隆方法、系统及机器人技术方案

技术编号:42371669 阅读:38 留言:0更新日期:2024-08-16 14:54
本发明专利技术公开了一种用于多角色声音的克隆方法、系统及机器人,属于人工智能领域中的语音合成和自然语言处理技术领域,包括:根据多种角色说话人的音频数据,生成说话人编码向量,同时提取音频数据对应的音频内容的特征信息,生成音频内容编码向量;对上述两个向量进行声音还原,并获取不同角色说话人的音色特征,生成音色特征向量;将音频数据对应的文本信息的音素信息,生成一个固定长度的文本编码向量,与音色特征向量,形成一个组合编码向量;通过将组合编码向量解码成音频梅尔特征,通过声码器进行音频合成,输出与多种角色说话人的音色和风格一致的合成音频。本发明专利技术完成多种角色的声音克隆,同时实现高度逼真度的声音克隆。

【技术实现步骤摘要】

本专利技术涉及人工智能领域中的语音合成和自然语言处理,具体而言,涉及一种用于多角色声音的克隆方法、系统及机器人


技术介绍

1、声音克隆(voicecloning)是一种基于深度学习的技术,用于生成或模仿特定人员的声音,是利用计算机算法和人工智能技术来复制、编辑和生成人类语音的一种方法。这种技术可以将一个人的语音样本输入到系统中,然后通过分析和学习该样本的声音特征、语音模式和语调等信息,生成具有相似特征的新的语音样本。这种技术广泛应用于各种应用场景,如语音合成、语音识别、人机交互等。

2、老年人往往因为身体和经济等方面的原因,会面临孤独、寂寞和社交隔离等问题,这会对他们的心理健康和生活质量造成影响。通过声音克隆,模拟多种家属的声音和语气,通过人工智能与老年人进行对话以及提醒为他们提供陪伴、关心和支持,帮助他们缓解孤独感和社交隔离,在进行声音克隆时,语音合成技术可以将文本转化为自然语音,自然语言处理技术可以实现对自然语言的理解和生成。这些技术可以被用于实现机器人与老年人之间的对话。然而现有的技术都是根据一种角色声音克隆,如只有一种模拟家属声音,无本文档来自技高网...

【技术保护点】

1.一种用于多角色声音的克隆方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种用于多角色声音的克隆方法,其特征在于:

3.根据权利要求2所述一种用于多角色声音的克隆方法,其特征在于:

4.根据权利要求3所述一种用于多角色声音的克隆方法,其特征在于:

5.根据权利要求4所述一种用于多角色声音的克隆方法,其特征在于:

6.根据权利要求5所述一种用于多角色声音的克隆方法,其特征在于:

7.根据权利要求1所述一种用于多角色声音的克隆方法,其特征在于:

8.一种用于多角色声音的克隆系统,其特征在于,包括:...

【技术特征摘要】

1.一种用于多角色声音的克隆方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种用于多角色声音的克隆方法,其特征在于:

3.根据权利要求2所述一种用于多角色声音的克隆方法,其特征在于:

4.根据权利要求3所述一种用于多角色声音的克隆方法,其特征在于:

5.根据权利要求4所述一种用于多角色声音的克隆方法,其特征在于:

6.根据权利要求5所述一种用于多角色声音的克隆方法,其特征...

【专利技术属性】
技术研发人员:李俊贤刘希詹嘉琪吴沐君沛
申请(专利权)人:广州番禺职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1