基于深度学习的用户音色克隆与语音合成方法及装置制造方法及图纸

技术编号：45876637 阅读：8 留言：0更新日期：2025-07-19 11:36

本发明专利技术公开了基于深度学习的用户音色克隆与语音合成方法及装置，涉及语音识别应用技术领域，包括：采集用户的语音数据；从所述语音数据中提取与用户对应的音色特征；采用迁移学习技术训练个性化的音色模型，得到训练好的音色模型；获取需要朗读的绘本内容，提取所述绘本内容中包含情感及节奏关键信息；根据提取的所述绘本内容中包含情感及节奏关键信息，动态调整语音合成的各播放参数；将需要朗读的绘本内容输入至已训练好的音色模型进行语音合成，并结合所述调整好的语音合成的各播放参数，对合成后的语音进行调整后输出。本发明专利技术能够根据具体用户的音色特征进行个性化克隆，提供更加自然、逼真的语音合成效果，为用户的使用提供了方便。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别应用，尤其涉及的是一种基于深度学习的用户音色克隆与语音合成方法、装置、智能终端及非临时性计算机可读存储介质。

技术介绍

1、随着人工智能和语音处理技术的快速发展，音色克隆和语音合成技术在教育、娱乐等领域得到了广泛应用。特别是在儿童教育领域，个性化的语音合成技术能够为儿童提供更加生动、有趣的阅读体验。

2、但是，现有技术的音色克隆和语音合成技术在应用于儿童绘本阅读时，仍存在诸多挑战和不足。即现有技术中采用传统语音合成技术，使用预定义的语音库进行合成，缺乏个性化，无法准确捕捉和复刻特定人的音色特征，导致语音效果不够自然。

3、因此，现有技术还有待改进和发展。

技术实现思路

1、本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于深度学习的用户音色克隆与语音合成方法、装置、智能终端及存储介质，本专利技术能够根据具体用户的音色特征进行个性化克隆，提供更加自然、逼真的语音合成效果，为用户的使用提供了方便。

2、本专利技术解决问...

【技术保护点】

1.一种基于深度学习的用户音色克隆与语音合成方法，其特征在于，包括：

2.根据权利要求1所述的基于深度学习的用户音色克隆与语音合成方法，其特征在于，所述采集获取用户的语音数据，并对采集的语音数据进行预处理的步骤包括：

3.根据权利要求1所述的基于深度学习的用户音色克隆与语音合成方法，其特征在于，所述采用深度学习算法从所述语音数据中提取与用户对应的音色特征的步骤包括：

4.根据权利要求1所述的基于深度学习的用户音色克隆与语音合成方法，其特征在于，所述基于提取的音色特征，采用迁移学习技术训练个性化的音色模型，得到训练好的音色模型的步骤包括：

5...

【技术特征摘要】

1.一种基于深度学习的用户音色克隆与语音合成方法，其特征在于，包括：

5.根据权利要求1所述的基于深度学习的用户音色克隆与语音合成方法，其特征在于，所述获取需要朗读的绘本内容，并对绘本内容进行文本分析，提取所述绘本内容中包含情感及节奏关键信息的步骤包括：

6.根据权利要求1所述的基于深度学习的用户音色克隆与语音...

【专利技术属性】
技术研发人员：丁哲强，郑毅，李圳，
申请(专利权)人：深圳市酷开软件技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人