一种用于多角色声音的克隆方法、系统及机器人技术方案

技术编号：42371669 阅读：38 留言：0更新日期：2024-08-16 14:54

本发明专利技术公开了一种用于多角色声音的克隆方法、系统及机器人，属于人工智能领域中的语音合成和自然语言处理技术领域，包括：根据多种角色说话人的音频数据，生成说话人编码向量，同时提取音频数据对应的音频内容的特征信息，生成音频内容编码向量；对上述两个向量进行声音还原，并获取不同角色说话人的音色特征，生成音色特征向量；将音频数据对应的文本信息的音素信息，生成一个固定长度的文本编码向量，与音色特征向量，形成一个组合编码向量；通过将组合编码向量解码成音频梅尔特征，通过声码器进行音频合成，输出与多种角色说话人的音色和风格一致的合成音频。本发明专利技术完成多种角色的声音克隆，同时实现高度逼真度的声音克隆。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域中的语音合成和自然语言处理，具体而言，涉及一种用于多角色声音的克隆方法、系统及机器人。

技术介绍

1、声音克隆(voicecloning)是一种基于深度学习的技术，用于生成或模仿特定人员的声音，是利用计算机算法和人工智能技术来复制、编辑和生成人类语音的一种方法。这种技术可以将一个人的语音样本输入到系统中，然后通过分析和学习该样本的声音特征、语音模式和语调等信息，生成具有相似特征的新的语音样本。这种技术广泛应用于各种应用场景，如语音合成、语音识别、人机交互等。

2、老年人往往因为身体和经济等方面的原因，会面临孤独、寂寞和社交隔离等问题，这会对他们的心理健康和生活质量造成影响。通过声音克隆，模拟多种家属的声音和语气，通过人工智能与老年人进行对话以及提醒为他们提供陪伴、关心和支持，帮助他们缓解孤独感和社交隔离，在进行声音克隆时，语音合成技术可以将文本转化为自然语音，自然语言处理技术可以实现对自然语言的理解和生成。这些技术可以被用于实现机器人与老年人之间的对话。然而现有的技术都是根据一种角色声音克隆，如只有...

【技术保护点】

1.一种用于多角色声音的克隆方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种用于多角色声音的克隆方法，其特征在于：

3.根据权利要求2所述一种用于多角色声音的克隆方法，其特征在于：

4.根据权利要求3所述一种用于多角色声音的克隆方法，其特征在于：

5.根据权利要求4所述一种用于多角色声音的克隆方法，其特征在于：

6.根据权利要求5所述一种用于多角色声音的克隆方法，其特征在于：

7.根据权利要求1所述一种用于多角色声音的克隆方法，其特征在于：

8.一种用于多角色声音的克隆系统，其特征在于，包括：...

【技术特征摘要】

1.一种用于多角色声音的克隆方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种用于多角色声音的克隆方法，其特征在于：

3.根据权利要求2所述一种用于多角色声音的克隆方法，其特征在于：

4.根据权利要求3所述一种用于多角色声音的克隆方法，其特征在于：

5.根据权利要求4所述一种用于多角色声音的克隆方法，其特征在于：

6.根据权利要求5所述一种用于多角色声音的克隆方法，其特征...

【专利技术属性】
技术研发人员：李俊贤，刘希，詹嘉琪，吴沐君沛，
申请(专利权)人：广州番禺职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人