一种有声书的制作方法、制作装置以及存储介质制造方法及图纸

技术编号：38151218 阅读：9 留言：0更新日期：2023-07-13 09:15

本申请实施例公开了一种有声书的制作方法、制作装置以及存储介质，用于音频技术领域。本申请实施例方法包括：获取有声书对应的文本；确定文本中与角色相关以及与场景相关的目标句子；根据目标句子的角色信息对应的音频特征对目标句子进行有声化处理，得到与音频特征相匹配的角色朗读声音；根据目标句子的场景信息得到与场景信息相匹配的场景音效；确定场景信息在目标句子中的句子位置，并在角色朗读声音对应于句子位置的音频段中加入场景音效，得到目标句子对应的目标音频。通过在目标句子的角色朗读声音中加入对应的场景音效，使得目标句子的音频中不仅包含角色朗读声音，还包含场景音效，提高了有声书的音频听觉效果。提高了有声书的音频听觉效果。提高了有声书的音频听觉效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种有声书的制作方法、制作装置以及存储介质

[0001]本申请实施例涉及音频
，尤其涉及一种有声书的制作方法、制作装置以及存储介质。

技术介绍

[0002]现有的有声书，一般通过朗读的方式将文字朗读为音频，用户可以通过听的方式获取文字的信息，比如小说的有声书。朗读的方式可以为人工朗读，也可以为技术生成。
[0003]现有的通过人工朗读制作有声书，需要对文本进行逐一朗读，当文本的文字较多时在制作成本与制作时间方面都是巨大的，且生成效率较低。随着深度神经网络技术的发展，通过AI朗读技术直接生成的AI有声书，能快速的合成朗读声音；AI朗读，是通过深度神经网络，将文本转化为声音的技术。现有的AI朗读是通过文本转语音的语音合成技术进行合成，AI朗读一般在将文本转化为语音时，区分文本中每个句子对应的不同角色，将不同角色的句子转化为角色对应音频特征的声音波形，得到该句子对应的角色朗读的声音。
[0004]然而，现有的通过AI朗读的有声书制作方法，文本对应角色的句子中仅包含角色朗读的声音，得到的朗读声音较为单调，有声书的听觉效果较差。

技术实现思路

[0005]本申请实施例提供了一种有声书的制作方法、制作装置以及存储介质，能够有效提高有声书的音频听觉效果。
[0006]本申请实施例提供了一种有声书的制作方法，包括：
[0007]获取有声书对应的文本；
[0008]确定所述文本中与角色相关以及与场景相关的目标句子；
[0009]根据所述目标句子的角色信息对应的音频特...

【技术保护点】

【技术特征摘要】
1.一种有声书的制作方法，其特征在于，包括：获取有声书对应的文本；确定所述文本中与角色相关以及与场景相关的目标句子；根据所述目标句子的角色信息对应的音频特征对所述目标句子进行有声化处理，得到与所述音频特征相匹配的角色朗读声音；根据所述目标句子的场景信息得到与所述场景信息相匹配的场景音效；确定所述场景信息在所述目标句子中的句子位置，并在所述角色朗读声音对应于所述句子位置的音频段中加入所述场景音效，得到所述目标句子对应的目标音频。2.根据权利要求1所述的制作方法，其特征在于，所述确定所述场景信息在所述目标句子中的句子位置包括；获取所述场景信息对应的场景内容文字的第一音素序列；确定所述第一音素序列位于所述目标句子对应的音素序列中的序列位置，并将所述序列位置作为所述句子位置。3.根据权利要求2所述的制作方法，其特征在于，所述在所述角色朗读声音对应于所述句子位置的音频段中加入所述场景音效包括：根据所述序列位置确定所述第一音素序列在所述角色朗读声音中对应的音频帧序列；将所述音频帧序列对应的预设音频帧作为所述场景音效的音效起始帧；根据所述场景信息中的声音源确定所述场景音效的音效持续时长；根据所述音效起始帧以及所述音效持续时长，在所述角色朗读声音中加入所述场景音效。4.根据权利要求3所述的制作方法，其特征在于，所述根据所述场景信息中的声音源确定所述场景音效的音效持续时长包括：若所述声音源在预设时长内的音量变化值大于预设音量阈值，则确定所述场景音效为触发音，且所述触发音的音效持续时长小于预设持续时长；若所述声音源在预设时长内的音量变化值小于预设音量阈值，则确定所述场景音效为环境背景音，且所述环境背景音的音效持续时长大于预设持续时长。5.根据权利要求4所述的制作方法，其特征在于，所述在所述角色朗读声音中加入所述场景音效包括：若存在多个场景音效位于同一音频帧，且所述多个场景音效中存在所述触发音以及所述环境背景音，则基于预设音量平衡技术调高所述触发音的音量，以使所述触发音的音量高于所述环境背景音的音量。6.根据权利要求3所述的制作方法，其...

【专利技术属性】
技术研发人员：徐东，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人