实时交互的语音克隆方法、装置、设备和介质制造方法及图纸

技术编号:46601366 阅读:1 留言:0更新日期:2025-10-10 21:32
本发明专利技术公开了一种实时交互的语音克隆方法、装置、设备和介质。本发明专利技术所述语音克隆方法直接基于表达用户交互意图的语音数据作为训练语音克隆模型的训练样本数据,无需事先额外录制用户的源音频数据来训练语音克隆模型,提高了语音交互的实时性,且可以实时对语音克隆模型的模型参数进行调整,可提高语音克隆模型的克隆质量和效率。此外,采用梅尔频率倒谱系数声纹特征提取模型结合生成对抗网络模型实现语音克隆,有利于提高语音克隆的质量,提高语交互的对话流畅性。因此,本发明专利技术所述音克隆方法,可以在实现与用户个性化语音交互的同时,提高语音交互的实时性,从而确保与用户的对话流畅性,进而提高了用户语音交互的体验舒适度。

【技术实现步骤摘要】

本专利技术涉及语音处理,具体关于一种实时交互的语音克隆方法、装置、设备和介质


技术介绍

1、在当今科技飞速发展的时代,人工智能(ai)已经逐渐融入人们的生活和工作场景。语音交互作为人机交互的重要方式之一,凭借自然、便捷的特性,获得了广泛关注与实际应用。传统的语音交互大多缺乏个性化的声纹特征,无法为用户提供更加真实、个性化的交互体验。声纹是每个人特有的声音特征,包含了说话者的身份信息、生理特征等。因此,可以基于声纹克隆技术可以通过提取用户的语音声纹特征,生成与用户声纹相似的语音,从而实现个性化的声音交互。例如,公开号为cn120340457a的中国专利申请公开了一种基于深度学习的用户音色克隆与语音合成方法,该方法包括:先采集用户语音数据,从用户语音数据中提取与用户对应的音色特征,以采用迁移学习技术训练个性化的音色模型,得到训练好的音色模型;然后基于用户指令获取需要朗读的绘本内容,并将需要朗读的绘本内容输入至已训练好的音色模型进行语音合成, 并输出。再如,公开号为cn113053373a的中国专利申请公开了一种支持声音克隆的智能车载语音交互方法,该方法包括:本文档来自技高网...

【技术保护点】

1.一种实时交互的语音克隆方法,其特征在于,包括:

2.根据权利要求1所述的语音克隆方法,其特征在于,所述对所述语音数据进行声纹特征提取,包括:

3.根据权利要求1所述的语音克隆方法,其特征在于,所述对所述语音数据进行声纹特征提取,包括:

4.根据权利要求1所述的语音克隆方法,其特征在于,所述根据所述语音数据确定用户交互意图,以生成对应的应答文本数据,包括:

5.一种实时交互的语音克隆装置,其特征在于,包括:

6.一种实时交互的语音克隆设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序、指令或代码,所述处理器用于执行所...

【技术特征摘要】

1.一种实时交互的语音克隆方法,其特征在于,包括:

2.根据权利要求1所述的语音克隆方法,其特征在于,所述对所述语音数据进行声纹特征提取,包括:

3.根据权利要求1所述的语音克隆方法,其特征在于,所述对所述语音数据进行声纹特征提取,包括:

4.根据权利要求1所述的语音克隆方法,其特征在于,所述根据所述语音数据确定用户交互意图,以生成对应的应答文本数据,包括:

5.一种实时交互的语音克隆装置,其特征在于,包括:<...

【专利技术属性】
技术研发人员:冯武刘华安于翠楠
申请(专利权)人:湖南博极生命科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1