基于多模态大语言模型的有声书自动生成方法技术

技术编号：38988802 阅读：14 留言：0更新日期：2023-10-07 10:19

本发明专利技术提出了一种使用多模态大语言模型的有声书自动生成方法，模型生成不同角色的独特声音和说话风格，保持语音音调的一致性，根据场景和情绪调整角色的声音，以及创建真实的背景声音，模型使用现有的电影剧本和配音、有声书以及特别注释的数据集进行训练。声书以及特别注释的数据集进行训练。声书以及特别注释的数据集进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
基于多模态大语言模型的有声书自动生成方法

[0001]本专利技术涉及人工智能和数字媒体领域，具体涉及使用多模态大语言模型自动生成有声书。

技术介绍

[0002]有声书的优势：有声书因为诸多优势而受到欢迎，如可以在任何地方、任何时间听，无需因阅读而引发眼睛疲劳，以及有可能提高外语听力技能等。
[0003]现有有声书的局限性：当前的有声书有几个局限性。
[0004]1、大部分由语音合成引擎生成，它们使用单一的声音读取所有文本，无法反映出不同的角色、场景和情绪，导致体验不佳；
[0005]2、一些流行的有声小说由单一主持人全程朗读，能够更有效地表达角色、场景和情绪的差异。然而，这些有声小说生产效率低，制作成本高，因为主持人需要做大量的准备、策划、表演和录音工作；
[0006]3、质量不一，这在很大程度上取决于主持人的才华、对原作的理解，从而导致质量的巨大随机性；
[0007]4、表达力有限，因为它们通常使用单一的主持人为所有角色配音，导致单调，甚至男女声音都由同一位主持人完成。

技术实现思路

[0008]本专利技术提出了一种基于多模态大语言模型的有声书自动生成方法。该方法利用多模态大语言模型，根据角色的性别、年龄、性格等特点生成独特的声音和风格，维护整本书的语音一致性，根据场景和角色的情绪调整语调、语速和音量，并真实地生成背景声音。
[0009]7、本专利技术提供如下技术方案：一种基于大型语言模型的有声书自动生成方法，包括以下步骤：步骤1：训练数据的准备：首先...

【技术保护点】

【技术特征摘要】
1.一种基于大型语言模型的有声书自动生成方法，其特征在于，包括以下步骤：步骤1：训练数据的准备：首先获取多种来源的多模态训练数据，这些来源可以包括现有的电影剧本及配音、有声书以及人工专门注释的数据集，对于人工注释的数据集，人类注释员评估模型生成的声音与其对应角色的匹配程度，对声音在预定的尺度上进行评级，生成监督学习的标签，该数据集被用于提升模型对于声音风格的生成多样性，并将这些声音恰当地匹配至角色；步骤2：模型训练：在获取训练数据后，在预训练好的大语言模型基础上，运用这些数据来训练多模态大语言模型，语言模型根据角色的属性如性别、年龄和性格生成独特的声音和说话风格，模型将输入的文本与相应的声音标签关联起来，进一步学习将角色属性与特定的声音风格联系在一起，模型通过理解文本上下文、识别角色及其属性和情绪，生成相应的独特声音，人类注释员的反馈被用于模型的迭代改进，以增强模型在生成符合角色性质并根据场景和情绪调整声音的能力；步骤3：有声书生成：模型训练完成后，开始从给定的文本中生成有声书，模型处理文本以识别角色、属性和上下文，然后根据之前学习到的知识生成各角色的独特声音，模型会维持上下文的跟踪，并根据不同场景和角色的情绪调整语调、语速...

【专利技术属性】
技术研发人员：刘聪，张坤，许莉娟，
申请(专利权)人：盐城工学院技术转移中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人