【技术实现步骤摘要】
本申请涉及人工智能,具体而言,涉及一种语音编辑方法及装置。
技术介绍
1、传统的电话客服主要依赖于人工客服和按键菜单,但随着客户的不断增加和业务日益复杂化,人工成本不断攀升,高峰时段的呼叫量急速攀升。随着人工智能技术的发展,语音合成(text to speech,tts)技术将文本转成语音完成人机交互。但是当前tts合成的语音在情感表达上,如传达亲切、同情等情感,相对于真实声音往往会显得机械或不自然,影响了用户的体验。在相关技术中,一种可选的方式是先用tts合成被编辑的文本对应的音频,然后利用变声技术(voice conversion,vc)对合成的音频进行风格统一,再将合成的音频与原录音进行拼接,但拼接的音频容易损伤语音的质量。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种语音编辑方法及装置,以至少解决相关技术中语音编辑的质量较差的技术问题。
2、根据本申请实施例的一个方面,提供了一种语音编辑方法,包括:获取目标文本,
...【技术保护点】
1.一种语音编辑方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述目标文本确定所述初始文本中被修改的位置,并基于所述被修改的位置和所述初始语音确定掩码向量,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述被修改的位置和所述初始语音确定所述掩码向量,包括:
4.根据权利要求3所述的方法,其特征在于,基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息,包括:
6.根据
...【技术特征摘要】
1.一种语音编辑方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述目标文本确定所述初始文本中被修改的位置,并基于所述被修改的位置和所述初始语音确定掩码向量,包括:
3.根据权利要求2所述的方法,其特征在于,基于所述被修改的位置和所述初始语音确定所述掩码向量,包括:
4.根据权利要求3所述的方法,其特征在于,基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息,包括:
5.根据权利要求4所述的方法,其特征在于,基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息,包括:
6.根据权利要求1所述的方法,其特征在于,基于所述目标...
【专利技术属性】
技术研发人员:朱媛媛,廉洁,李杰,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。