基于深度声纹特征匹配的个性化歌声克隆系统与匹配方法技术方案

技术编号:45915838 阅读:17 留言:0更新日期:2025-07-25 17:46
本发明专利技术涉及歌声合成技术领域,公开了基于深度声纹特征匹配的个性化歌声克隆系统与匹配方法,该系统包括:用户个性建模模块、风格建模模块、语义旋律联合感知模块、歌声合成模块和情感一致性匹配模块,该方法通过提取用户的声纹、情感和发声控制特征,生成个性和风格向量,并结合歌词语义和旋律结构,利用扩散模型生成歌声声谱图,最后通过情感一致性判别优化模型。通过提取用户的声纹特征、情感表达特征和发声控制特征,并与风格控制向量和语义旋律信息融合,本发明专利技术能够生成符合个性化需求且风格一致的歌声,解决了现有技术中歌声合成模型在个性化和风格一致性表达上的不足,提供了更精确的个性化歌声生成能力。

【技术实现步骤摘要】

本专利技术涉及歌声合成,具体为基于深度声纹特征匹配的个性化歌声克隆系统与匹配方法


技术介绍

1、随着人工智能和深度学习的快速发展,近年来,歌声合成技术已取得了显著的进步。传统的歌声合成方法多基于拼接技术和统计模型,然而,这些方法生成的歌声往往缺乏灵活性,且难以准确捕捉用户的个性需求和情感表达。

2、近年来,基于深度学习的歌声合成模型逐渐成为主流,这些模型通过端到端的训练,能够从大量音频数据中学习到复杂的音频特征,进而生成高质量的歌声。特别是像wavenet、tacotron等神经网络模型,它们通过生成声谱图和波形预测,能够生成相对自然和流畅的歌声。这些技术在音质和语音流畅度上取得了显著的效果,但它们主要集中在音频质量的提升上,而忽视了生成歌声在个性化和风格一致性上的需求。

3、此外,现有的歌声合成技术大多依赖于固定的训练集和单一的风格特征,这使得合成结果难以做到真正的个性化定制。例如,传统的歌声合成模型无法根据个体用户的特定需求来生成具有特定情感或风格的歌声,缺乏对用户个性和风格偏好的深度理解与表达。因此,尽管现有技术在音质提升上本文档来自技高网...

【技术保护点】

1.基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,包括:

2.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述用户个性建模模块包括:

3.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述风格建模模块包括:

4.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述语义旋律联合感知模块包括:

5.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述歌声合成模块为基于条件扩散机制的神经网络模型,接收控制向量与高斯噪声作为输入,并...

【技术特征摘要】

1.基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,包括:

2.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述用户个性建模模块包括:

3.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述风格建模模块包括:

4.根据权利要求1所述的基于深度声纹特征匹配的个性化歌声克隆系统,其特征在于,所述语义旋律联合感知模块包括:

5.根据权利要求1所述...

【专利技术属性】
技术研发人员:吴方欲刘云扬
申请(专利权)人:深圳市钟吕文化传播有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1