语音编辑方法及装置制造方法及图纸

技术编号:41287401 阅读:23 留言:0更新日期:2024-05-11 09:35
本申请公开了一种语音编辑方法及装置。其中,该方法包括:获取目标文本,目标文本为对初始文本进行修改后的文本,其中,初始文本为初始语音对应的文本;基于目标文本确定初始文本中被修改的位置,并基于被修改的位置和初始语音确定掩码向量;基于掩码向量和目标文本确定帧粒度的基本频率信息,从初始语音中提取初始语音的梅尔频谱特征,并基于目标文本和初始语音的梅尔频谱特征构建梅尔编码向量;基于目标文本、帧粒度的基本频率信息和梅尔编码向量确定目标文本对应的目标语音。本申请解决了相关技术中语音编辑的质量较差的技术问题。

【技术实现步骤摘要】

本申请涉及人工智能,具体而言,涉及一种语音编辑方法及装置


技术介绍

1、传统的电话客服主要依赖于人工客服和按键菜单,但随着客户的不断增加和业务日益复杂化,人工成本不断攀升,高峰时段的呼叫量急速攀升。随着人工智能技术的发展,语音合成(text to speech,tts)技术将文本转成语音完成人机交互。但是当前tts合成的语音在情感表达上,如传达亲切、同情等情感,相对于真实声音往往会显得机械或不自然,影响了用户的体验。在相关技术中,一种可选的方式是先用tts合成被编辑的文本对应的音频,然后利用变声技术(voice conversion,vc)对合成的音频进行风格统一,再将合成的音频与原录音进行拼接,但拼接的音频容易损伤语音的质量。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种语音编辑方法及装置,以至少解决相关技术中语音编辑的质量较差的技术问题。

2、根据本申请实施例的一个方面,提供了一种语音编辑方法,包括:获取目标文本,所述目标文本为对初始本文档来自技高网...

【技术保护点】

1.一种语音编辑方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述目标文本确定所述初始文本中被修改的位置,并基于所述被修改的位置和所述初始语音确定掩码向量,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述被修改的位置和所述初始语音确定所述掩码向量,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息,包括:

5.根据权利要求4所述的方法,其特征在于,基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息,包括:

6.根据权利要求1所述的方法...

【技术特征摘要】

1.一种语音编辑方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于所述目标文本确定所述初始文本中被修改的位置,并基于所述被修改的位置和所述初始语音确定掩码向量,包括:

3.根据权利要求2所述的方法,其特征在于,基于所述被修改的位置和所述初始语音确定所述掩码向量,包括:

4.根据权利要求3所述的方法,其特征在于,基于所述掩码向量和所述目标文本确定帧粒度的基本频率信息,包括:

5.根据权利要求4所述的方法,其特征在于,基于所述目标特征和所述时长掩码向量确定音素粒度的时长信息,包括:

6.根据权利要求1所述的方法,其特征在于,基于所述目标...

【专利技术属性】
技术研发人员:朱媛媛廉洁李杰
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1