一种有声书的制作方法、制作装置以及存储介质制造方法及图纸

技术编号:38151218 阅读:9 留言:0更新日期:2023-07-13 09:15
本申请实施例公开了一种有声书的制作方法、制作装置以及存储介质,用于音频技术领域。本申请实施例方法包括:获取有声书对应的文本;确定文本中与角色相关以及与场景相关的目标句子;根据目标句子的角色信息对应的音频特征对目标句子进行有声化处理,得到与音频特征相匹配的角色朗读声音;根据目标句子的场景信息得到与场景信息相匹配的场景音效;确定场景信息在目标句子中的句子位置,并在角色朗读声音对应于句子位置的音频段中加入场景音效,得到目标句子对应的目标音频。通过在目标句子的角色朗读声音中加入对应的场景音效,使得目标句子的音频中不仅包含角色朗读声音,还包含场景音效,提高了有声书的音频听觉效果。提高了有声书的音频听觉效果。提高了有声书的音频听觉效果。

【技术实现步骤摘要】
一种有声书的制作方法、制作装置以及存储介质


[0001]本申请实施例涉及音频
,尤其涉及一种有声书的制作方法、制作装置以及存储介质。

技术介绍

[0002]现有的有声书,一般通过朗读的方式将文字朗读为音频,用户可以通过听的方式获取文字的信息,比如小说的有声书。朗读的方式可以为人工朗读,也可以为技术生成。
[0003]现有的通过人工朗读制作有声书,需要对文本进行逐一朗读,当文本的文字较多时在制作成本与制作时间方面都是巨大的,且生成效率较低。随着深度神经网络技术的发展,通过AI朗读技术直接生成的AI有声书,能快速的合成朗读声音;AI朗读,是通过深度神经网络,将文本转化为声音的技术。现有的AI朗读是通过文本转语音的语音合成技术进行合成,AI朗读一般在将文本转化为语音时,区分文本中每个句子对应的不同角色,将不同角色的句子转化为角色对应音频特征的声音波形,得到该句子对应的角色朗读的声音。
[0004]然而,现有的通过AI朗读的有声书制作方法,文本对应角色的句子中仅包含角色朗读的声音,得到的朗读声音较为单调,有声书的听觉效果较差。

技术实现思路

[0005]本申请实施例提供了一种有声书的制作方法、制作装置以及存储介质,能够有效提高有声书的音频听觉效果。
[0006]本申请实施例提供了一种有声书的制作方法,包括:
[0007]获取有声书对应的文本;
[0008]确定所述文本中与角色相关以及与场景相关的目标句子;
[0009]根据所述目标句子的角色信息对应的音频特征对所述目标句子进行有声化处理,得到与所述音频特征相匹配的角色朗读声音;
[0010]根据所述目标句子的场景信息得到与所述场景信息相匹配的场景音效;
[0011]确定所述场景信息在所述目标句子中的句子位置,并在所述角色朗读声音对应于所述句子位置的音频段中加入所述场景音效,得到所述目标句子对应的目标音频。
[0012]进一步的,所述确定所述场景信息在所述目标句子中的句子位置包括;
[0013]获取所述场景信息对应的场景内容文字的第一音素序列;
[0014]确定所述第一音素序列位于所述目标句子对应的音素序列中的序列位置。
[0015]进一步的,所述在所述角色朗读声音对应于所述句子位置的音频段中加入所述场景音效包括:
[0016]根据所述序列位置确定所述第一音素序列在所述角色朗读声音中对应的音频帧序列;
[0017]将所述音频帧序列对应的预设音频帧作为所述场景音效的音效起始帧;
[0018]根据所述场景信息中的声音源确定所述场景音效的音效持续时长;
[0019]根据所述音效起始帧以及所述音效持续时长,在所述角色朗读声音中加入所述场景音效。
[0020]进一步的,所述根据所述场景信息中的声音源确定所述场景音效的音效持续时长包括:
[0021]若所述声音源在预设时长内的音量变化值大于预设音量阈值,则确定所述场景音效为触发音,且所述触发音的音效持续时长小于预设时长;
[0022]若所述声音源在预设时长内的音量变化值小于预设音量阈值,则确定所述场景音效为环境背景音,且所述环境背景音的音效持续时长大于预设时长。
[0023]进一步的,所述在所述角色朗读声音中加入所述场景音效包括:
[0024]若存在多个场景音效位于同一音频帧,且所述多个场景音效中存在所述触发音以及所述环境背景音,则基于预设音量平衡技术调高所述触发音的音量,以使所述触发音的音量高于所述环境背景音的音量。
[0025]进一步的,所述根据所述音效起始帧以及所述音效持续时长,在所述角色朗读声音中加入所述场景音效包括:
[0026]在所述音效起始帧将所述场景音效淡入所述角色朗读声音中,并持续增强所述场景音效的音量直至达到预设音量;
[0027]在所述音效持续时长的预设结尾时段减小所述场景音效的音量,将所述场景音效淡出所述角色朗读声音。
[0028]进一步的,所述确定所述文本中与角色相关以及与场景相关的目标句子包括:
[0029]确定所述文本中句子的语义信息中是否存在预设角色对话信息,或者确定所述文本中句子的语义信息是否与预设角色句子集中的语义信息相匹配;
[0030]若存在所述预设角色对话信息,或者与所述预设角色句子集中的语义信息相匹配,则确定所述句子为与角色相关的角色句子;
[0031]若所述角色句子中存在预设场景语义,则确定所述角色句子为所述目标句子。
[0032]进一步的,所述根据所述目标句子的角色信息对应的音频特征对所述目标句子进行有声化处理,得到与所述音频特征相匹配的角色朗读声音包括:
[0033]将所述目标句子输入预设朗读模型,在所述预设朗读模型中确定所述目标句子的角色信息对应的音色特征;
[0034]基于所述角色信息对应的音色特征将所述目标句子对应音素序列转换为目标音频特征;
[0035]将所述目标音频特征转化为声音波形,得到与所述音频特征相匹配的角色朗读声音。
[0036]进一步的,所述根据所述目标句子的场景信息得到与所述场景信息相匹配的场景音效包括:
[0037]根据所述场景信息中的预设场景语义,从预设音效库中确定与所述场景信息相匹配的场景音效,其中,所述预设音效库中包含有多种场景语义对应场景音效。
[0038]本申请实施例还提供了一种有声书的制作装置,包括:
[0039]中央处理器,存储器以及输入输出接口;
[0040]所述存储器为短暂存储存储器或持久存储存储器;
[0041]所述中央处理器配置为与所述存储器通信,并执行所述存储器中的指令操作以执行上述的方法。
[0042]本申请实施例还提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得计算机执行上述的方法。
[0043]从以上技术方案可以看出,本申请实施例具有以下优点:
[0044]本申请实施例方法包括:获取有声书对应的文本;确定文本中与角色相关以及与场景相关的目标句子;根据目标句子的角色信息对应的音频特征对目标句子进行有声化处理,得到与音频特征相匹配的角色朗读声音;根据目标句子的场景信息得到与场景信息相匹配的场景音效;确定场景信息在目标句子中的句子位置,并在角色朗读声音对应于句子位置的音频段中加入场景音效,得到目标句子对应的目标音频。通过在目标句子的角色朗读声音中加入对应的场景音效,将目标句子对应的角色朗读声音与场景音效相结合,使得目标句子的音频中不仅包含角色朗读声音,还包含场景音效,提高了有声书的音频听觉效果。
附图说明
[0045]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0046]图1为本申请实施例公开的一个有声书制作的通信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种有声书的制作方法,其特征在于,包括:获取有声书对应的文本;确定所述文本中与角色相关以及与场景相关的目标句子;根据所述目标句子的角色信息对应的音频特征对所述目标句子进行有声化处理,得到与所述音频特征相匹配的角色朗读声音;根据所述目标句子的场景信息得到与所述场景信息相匹配的场景音效;确定所述场景信息在所述目标句子中的句子位置,并在所述角色朗读声音对应于所述句子位置的音频段中加入所述场景音效,得到所述目标句子对应的目标音频。2.根据权利要求1所述的制作方法,其特征在于,所述确定所述场景信息在所述目标句子中的句子位置包括;获取所述场景信息对应的场景内容文字的第一音素序列;确定所述第一音素序列位于所述目标句子对应的音素序列中的序列位置,并将所述序列位置作为所述句子位置。3.根据权利要求2所述的制作方法,其特征在于,所述在所述角色朗读声音对应于所述句子位置的音频段中加入所述场景音效包括:根据所述序列位置确定所述第一音素序列在所述角色朗读声音中对应的音频帧序列;将所述音频帧序列对应的预设音频帧作为所述场景音效的音效起始帧;根据所述场景信息中的声音源确定所述场景音效的音效持续时长;根据所述音效起始帧以及所述音效持续时长,在所述角色朗读声音中加入所述场景音效。4.根据权利要求3所述的制作方法,其特征在于,所述根据所述场景信息中的声音源确定所述场景音效的音效持续时长包括:若所述声音源在预设时长内的音量变化值大于预设音量阈值,则确定所述场景音效为触发音,且所述触发音的音效持续时长小于预设持续时长;若所述声音源在预设时长内的音量变化值小于预设音量阈值,则确定所述场景音效为环境背景音,且所述环境背景音的音效持续时长大于预设持续时长。5.根据权利要求4所述的制作方法,其特征在于,所述在所述角色朗读声音中加入所述场景音效包括:若存在多个场景音效位于同一音频帧,且所述多个场景音效中存在所述触发音以及所述环境背景音,则基于预设音量平衡技术调高所述触发音的音量,以使所述触发音的音量高于所述环境背景音的音量。6.根据权利要求3所述的制作方法,其...

【专利技术属性】
技术研发人员:徐东
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1