【技术实现步骤摘要】
一种语音合成方法和装置
本专利技术涉及信息处理
,特别是涉及一种语音合成方法和一种语音合成装置。
技术介绍
目前,语音合成技术可以比较真实地还原语调平缓的人声语音合成,但在某些特殊场景下,合成的语音需要在某些特殊的单词或短语部分进行重读,即所谓的逻辑句重音,以用来强调以及提醒句子的重点。比如,在银行客服的场景下,输出的语音“请您尽快还清贷款。”中的“尽快”一词理应需要进行特殊重读。这种句重音部分的音频较之语调平缓的语音,通常有语速、音调(基频)等多个方面的特征变化。针对逻辑句重音的语音合成,传统做法是在声学模型输出声学特征信息之后,通过截取需要强调的特征片段,人为地设置一些参数对声学特征进行调整,比如将音高调高,幅度(响度)增加,语速降低等,然后再将调整后的声学特征片段再拼接到原音频片段中,最后经声码器合成最后的语音序列,即得到具有逻辑句重音的语音序列。然而上述通过语音合成中的合成器部分,手动或设置工程逻辑调节各个声学特征参数,以达成强调效果的方式,涉及到对音频片段截取和拼接,以及需要通过工程经验和手动 ...
【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取包括至少一个句子的待处理文本,并从所述待处理文本提取文本特征;/n获取句重音特征以及针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到,以及所述目标声学模型包括针对句重音特征的偏置层;/n根据所述文本特征与所述句重音特征,以及所述目标声学模型,得到具有句重音特征的声学特征;/n对所述声学特征进行处理,得到具有句重音特征的语音序列。/n
【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取包括至少一个句子的待处理文本,并从所述待处理文本提取文本特征;
获取句重音特征以及针对句重音特征的目标声学模型;其中,所述目标声学模型为根据针对音色特征的预先声学模型经过自适应训练得到,以及所述目标声学模型包括针对句重音特征的偏置层;
根据所述文本特征与所述句重音特征,以及所述目标声学模型,得到具有句重音特征的声学特征;
对所述声学特征进行处理,得到具有句重音特征的语音序列。
2.根据权利要求1所述的方法,其特征在于,所述目标声学模型通过如下方式生成:
构建针对音色特征的第一偏置层;
根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型;
构建针对句重音特征的第二偏置层;
根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型。
3.根据权利要求2所述的方法,其特征在于,所述根据预设声学模型以及所述针对音色特征的第一偏置层,得到针对音色特征的预先声学模型,包括:
获取归一化文本特征,以及根据所述针对音色特征的第一偏置层获取第一偏置项;
采用归一化文本特征以及所述第一偏置项所述第一训练模型进行训练,得到针对音色特征的预先声学模型。
4.根据权利要求3所述的方法,其特征在于,所述第一偏置层包括第一嵌入层;所述根据所述针对音色特征的第一偏置层获取第一偏置项,包括:
获取针对音色特征的第一训练集;所述第一训练集包括存在多说话人的音色特征样本数据;
对所述音色特征样本数据进行独热编码,得到音色特征向量;
将所述音色特征向量经过所述第一嵌入层,得到针对音色特征的第一偏置项。
5.根据权利要求3所述的方法,其特征在于,所述根据所述针对句重音特征的第二偏置层,以及所述针对音色特征的预先声学模型,得到针对句重音特征的目标声学模型,包括:
根据所述针对句重音特征的第二偏置项获取第二偏置项;
采用所述归一化文本特征以及所述第二偏置项对所述针对音色特征的预先声学模型进行训练,得到针对句重音特征...
【专利技术属性】
技术研发人员:李婉,李健,武卫东,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。