本申请公开了一种外呼播报方法、装置、存储介质及电子设备,其中方法包括:获取被播报对象的身份信息,并确定待播报的目标录音文件;基于所述目标录音文件的目标音色确定与目标音色对应的目标音色克隆模型;基于所述目标音色克隆模型对所述身份信息进行转换,获得包含身份信息的、具有所述目标音色的第一音频文件;基于所述第一音频文件以及所述目标录音文件生成目标音频文件;基于所述目标音频文件对所述被播报对象进行外呼播报。本申请中的方法通过获得包含与场景对应的话术内容又包含用户身份信息、且具有真人音色的音频文件,能为后续基于该目标音频文件进行语音播报提供保障,提升了用户对播报语音的亲和力,进而提升了用户的信任度。了用户的信任度。了用户的信任度。
【技术实现步骤摘要】
一种外呼播报方法、装置、存储介质及电子设备
[0001]本专利技术涉及客服外呼
,特别涉及一种外呼播报方法、装置、存储介质及电子设备。
技术介绍
[0002]目前,随着呼叫中心的发展,外呼服务已被广泛应用在各种领域,常见的例如金融行业、保险行业、医疗行业以及电销行业等。
[0003]在各领域中,例如在保险、电销领域,用户对于外呼来电的信任度较低,如果能够准确叫出用户的名字将有助于提升用户的信任度。
[0004]目前外呼机器人通常是基于语音合成技术,合成包含用户姓名和销售话术的话术文本,然后将该话术文本发送给语音合成系统合成相应的语音。但是完全基于语音合成技术合成的语音与真人声音具有一定差距,无法很好地适应真实销售场景,进而导致外呼时用户对外呼播报信任度较低。
[0005]如果挑选优秀的坐席人员录制固定话术录音,控制外呼机器人播报真人录制的话术录音,这种方案的虽然播报的声音较为自然、具有亲和力,贴近真实销售场景。但是无法录制大量包含不同的用户姓名的话术录音,进而导致外呼时用户对外呼播报信任度较低。
[0006]由此,亟需一种外部播报方法,以解决现有技术中外呼时用户对外呼播报的信任度较低的问题。
技术实现思路
[0007]有鉴于此,本专利技术提供了一种外呼播报方法、装置、存储介质以及电子设备,主要目的在于解决目前外呼时用户对外呼播报的信任度较低的问题。
[0008]为解决上述问题,本申请提供一种外呼播报方法,包括:
[0009]获取被播报对象的身份信息,并确定待播报的目标录音文件;
[0010]基于所述目标录音文件的目标音色确定与目标音色对应的目标音色克隆模型;
[0011]基于所述目标音色克隆模型对所述身份信息进行转换,获得包含身份信息的、具有所述目标音色的第一音频文件;
[0012]基于所述第一音频文件以及所述目标录音文件生成目标音频文件;
[0013]基于所述目标音频文件对所述被播报对象进行外呼播报。
[0014]可选的,在确定待播报的目标录音文件之前,所述方法还包括训练获得与各音色对应的音色克隆文件,包括:
[0015]基于各样本文本信息,以及与各样本文本信息对应的、具有第一音色的样本录音文件,对对应的初始音色克隆模型中的初始声学模型以及初始声码器进行模型训练,获得与各第一音色对应的第一音色克隆模型;各所述第一音色克隆模型中包含第一声学模型以及第一声码器。
[0016]可选的,在训练获得各第一音色克隆模型之后,所述方法还包括:建立各所述第一
音色克隆模型与第一音色的对应关系;
[0017]所述基于所述目标录音文件的目标音色确定目标声学模型,具体包括:
[0018]基于所述目标音色查找所述映射关系,以获得与所述目标音色对应的目标音色克隆模型。
[0019]可选的,所述确定待播报的目标录音文件,具体包括:
[0020]基于话术场景从话术录音库中筛选与所述话术场景对应的目标录音文件。
[0021]可选的,所述基于所述目标音色克隆模型对所述身份信息进行转换,获得包含身份信息的、具有所述目标音色的第一音频文件,具体包括:
[0022]对所述身份信息进行转换,获得与身份信息对应的文本特征向量;
[0023]基于所述目标音色克隆模型中的目标声学模型,将所述文本特征向量转换成声学特征;
[0024]基于所述目标音色模型中的目标声码器根据所述声学特征合成声音的波形,以获得所述第一音频文件。
[0025]可选的,所述基于所述第一音频文件以及所述目标录音文件生成目标音频文件,具体包括:
[0026]基于所述将所述第一音频文件与所述目标录音文件进行拼接处理,获得所述目标音频文件。
[0027]为解决上述问题,本申请提供一种外呼播报装置,包括:
[0028]获取模块,用于获取被播报对象的身份信息,并确定待播报的目标录音文件;
[0029]确定模块,用于基于所述目标录音文件的目标音色确定与目标音色对应的目标音色克隆模型;
[0030]转换模块,用于基于所述目标音色克隆模型对所述身份信息进行转换,获得包含身份信息的、具有所述目标音色的第一音频文件;
[0031]生成模块,用于基于所述第一音频文件以及所述目标录音文件生成目标音频文件;
[0032]播报模块,用于基于所述目标音频文件对所述被播报对象进行外呼播报。
[0033]可选的,所述外呼播报装置还包括用于训练获得与各音色对应的音色克隆文件的训练模块,所述训练模块用于:
[0034]基于各样本文本信息,以及与各样本文本信息对应的、具有第一音色的样本录音文件,对对应的初始音色克隆模型中的初始声学模型以及初始声码器进行模型训练,获得与各第一音色对应的第一音色克隆模型;各所述第一音色克隆模型中包含第一声学模型以及第一声码器。
[0035]为解决上述问题,本申请提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述外呼播报方法的步骤。
[0036]为解决上述问题,本申请提供一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述任一项所述外呼播报方法的步骤。
[0037]本申请中外呼播报方法、装置、存储介质及电子设备,通过利用目标音色对应的目标音色克隆模型来对身份信息进行语音克隆,从而能够获得与目标音色相同的、包含用户
身份信息的第一音频音频文件,从而后续能够基于该第一音频文件与待播报的目标录音文件进行合成,进而获得包含与场景对应的话术内容又包含用户身份信息、且具有真人音色的音频文件。为后续基于该目标音频文件进行语音播报提供了保障,提升了用户/被播报对象对播报语音的亲和力,进而提升了用户的信任度。
[0038]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0039]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0040]图1为本申请实施例一种外呼播报方法的流程图;
[0041]图2为本申请又一实施例外呼播报方法的流程图;
[0042]图3为本申请另一实施例一种外呼方法的流程图;
[0043]图4为本申请另一实施例一种外呼播报装置的结构框图;
[0044]图5为本申请另一实施例一种电子设备的结构框图。
具体实施方式
[0045]此处参考附图描述本申请的各种方案以及特征。
[0046]应理解的是,可以对此处申请的实施例做出各种修本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种外呼播报方法,其特征在于,获取被播报对象的身份信息,并确定待播报的目标录音文件;基于所述目标录音文件的目标音色确定与目标音色对应的目标音色克隆模型;基于所述目标音色克隆模型对所述身份信息进行转换,获得包含身份信息的、具有所述目标音色的第一音频文件;基于所述第一音频文件以及所述目标录音文件生成目标音频文件;基于所述目标音频文件对所述被播报对象进行外呼播报。2.如权利要求1所述的方法,其特征在于,在确定待播报的目标录音文件之前,所述方法还包括训练获得与各音色对应的音色克隆文件,包括:基于各样本文本信息,以及与各样本文本信息对应的、具有第一音色的样本录音文件,对对应的初始音色克隆模型中的初始声学模型以及初始声码器进行模型训练,获得与各第一音色对应的第一音色克隆模型;各所述第一音色克隆模型中包含第一声学模型以及第一声码器。3.如权利要求2所述的方法,其特征在于,在训练获得各第一音色克隆模型之后,所述方法还包括:建立各所述第一音色克隆模型与第一音色的对应关系;所述基于所述目标录音文件的目标音色确定目标声学模型,具体包括:基于所述目标音色查找所述映射关系,以获得与所述目标音色对应的目标音色克隆模型。4.如权利要求1所述的方法,其特征在于,所述确定待播报的目标录音文件,具体包括:基于话术场景从话术录音库中筛选与所述话术场景对应的目标录音文件。5.如权利要求1所述的方法,其特征在于,所述基于所述目标音色克隆模型对所述身份信息进行转换,获得包含身份信息的、具有所述目标音色的第一音频文件,具体包括:对所述身份信息进行转换,获得与身份信息对应的文本特征向量;基于所述目标音色克隆模型中的目标声学模型,将所述文本特征向量转换成声学特征;基于所述目标音色模...
【专利技术属性】
技术研发人员:范野,郭立钊,辛逸男,黄明星,王福钋,张航飞,徐华韫,曹富康,沈鹏,
申请(专利权)人:北京水滴科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。