语音转换方法和装置制造方法及图纸

技术编号:15765093 阅读:262 留言:0更新日期:2017-07-06 07:05
本发明专利技术涉及一种语音转换方法和装置,该方法包括:获取目标文本;合成与所述目标文本对应的第一机器语音;从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。本申请提供的方案提高了语音转换效果。

Voice conversion method and apparatus

The invention relates to a voice conversion method and device. The method includes: obtaining the target text; the first machine speech synthesis and the target text corresponding to the asynchronous machine; from the voice library, screening out the asynchronous machine speech unit sequence matching the prosodic features of prosodic features and the first of the machines; synchronous machines in speech database in the synchronous machine speech unit sequence search and the asynchronous machine speech unit sequence corresponding; according to the prosodic features of the synchronous machine speech unit sequence synthesis, and the target text corresponding to the second machine voice; from the synchronous machine voice library, selected with the second synchronous machine speech unit matching machine acoustic features; speaker unit splicing will speaker speech database and the synchronous machine unit corresponding to the speech, the speaker has. Standard speech. The scheme provided by the present invention improves the voice conversion effect.

【技术实现步骤摘要】
语音转换方法和装置
本专利技术涉及计算机
,特别是涉及一种语音转换方法和装置。
技术介绍
随着计算机技术的发展,语音内容转换的应用越来越广泛,如在有声小说朗读或者语音导航中实现个性化的声音等。伴随着生活水平的提高,人们对语音内容转换已经不仅仅满足于单纯对音色实现转换,还要求转换的语音更符合特定的说话人的口语习惯和说话风格。传统的语音内容转换技术中,在需要转换得到目标说话人语音时,主要是通过音色转换的方法,将其他说话人的语音转换为目标说话人的语音。然而,传统的语音转换方法得到的语音无法真实地反应说话人的语音风格,导致语音转换效果与真实说话人相比有一定的差距。
技术实现思路
基于此,有必要针对传统的语音转化方法在转换符合说话人语音风格的语音时效果不理想的问题,提供一种语音转换方法和装置。一种语音转换方法,所述方法包括:获取目标文本;合成与所述目标文本对应的第一机器语音;从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。一种语音转换装置,其特征在于,所述装置包括:获取模块,用于获取目标文本;第一合成模块,用于合成与所述目标文本对应的第一机器语音;第一筛选模块,用于从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;查找模块,用于在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;第二合成模块,用于根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;第二筛选模块,用于从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;拼接模块,将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。上述语音转换方法和装置,用于拼接得到说话人目标语音的语音单元选自说话人语音库,拼接转换的语音保留了说话人的音色。而且利用异步机器语音库中符合机器韵律特征的异步机器语音单元序列,与同步机器语音库中符合说话人韵律特征的同步机器语音单元序列的对应关系,在合成符合机器韵律特征的第一机器语音后,根据对应关系确定符合说话人语音风格的韵律特征。再根据该韵律特征合成第二机器语音,以第二机器语音的声学特征为依据从同步机器语音库中挑选与第二机器语音声学特征匹配的同步机器语音单元,再将说话人语音库中与挑选出的同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音,保留了说话人的韵律特征。这样即又保留了说话人音色,又保留了说话人的韵律特征,使得转换得到的语音更自然,更符合需求的说话人的语音风格,从而提高了语音转换效果。附图说明图1为一个实施例中用于实现语音转换方法的终端的内部结构示意图;图2为一个实施例中在终端上实现语音转换方法时的界面示意图;图3为一个实施例中语音转换方法的流程示意图;图4为一个实施例中从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列的步骤的流程示意图;图5为一个实施例中从同步机器语音库中,挑选与第二机器语音声学特征匹配的同步机器语音单元的步骤的流程示意图;图6为一个实施例中将说话人语音库中与同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音的步骤的流程示意图;图7为一个实施例中相邻的说话人语音单元拼接的示意图;图8为一个实施例中构建语音库的逻辑框图;图9为一个实施例中语音转换方法的逻辑框图;图10为一个实施例中语音转换装置的结构框图;图11为另一个实施例中语音转换装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中用于实现语音转换方法的终端的内部结构示意图。该终端可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。如图1所示,该终端包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口、显示屏和输入装置。其中,终端的非易失性存储介质存储有操作系统,还包括一种语音转换装置,该语音转换装置用于实现一种语音转换方法。该处理器用于提供计算和控制能力,支撑整个终端的运行。终端中的内存储器为非易失性存储介质中的语音转换装置的运行提供环境,该内存储器中可储存有计算机可读指令,该计算机可读指令被所述处理器执行时,可使得所述处理器执行一种语音转换方法。网络接口用于与服务器进行网络通信,如将说话人语音库发送至服务器进行存储等。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等,输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。图2示出了一个实施例中,在终端上实现语音转换方法时的界面示意图。参考图2,用户可通过终端会话界面提供的文本输入框210输入文本内容,终端在获取到用户输入的文本内容后,将该文本内容作为目标文本,合成与该目标文本对应的第一机器语音,再从异步机器语音库中,筛选出韵律特征与第一机器语音的韵律特征匹配的异步机器语音单元序列,并在同步机器语音库中,查找与该异步机器语音单元序列对应的同步机器语音单元序列,从而得到符合说话人语音风格的韵律特征。进一步地,终端可再根据该同步机器语音单元序列的韵律特征,合成与目标文本对应的第二机器语音,再从所述同步机器语音库中,挑选与第二机器语音声学特征匹配的同步机器语音单元,并将说话人语音库中与该同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音。终端可在得到说话人目标语音后,将得到的该说话人目标语音发送至当前会话中的另一会话用户对应的终端。其中,同步机器语音库、异步机器语音库和说话人语音库的文本内容相同,且说话人语音库与同步机器语音库的韵律特征相匹配。在其他实施例中,终端也可将异步机器语音库、同步机器语音库和说话人语音库上传至服务器,使得服务器也可基于异步机器语音库、同步机器语音库和说话人语音库实现该语音转换方法。如图3所示,在一个实施例中,提供了一种语音转换方法,本实施例以该方法应用于上述图1中的终端来举例说明。该方法具体包括如下步骤:S302,获取目标文本。其中,目标文本是指待转换的说话人目标语音对应的本文档来自技高网...
语音转换方法和装置

【技术保护点】
一种语音转换方法,所述方法包括:获取目标文本;合成与所述目标文本对应的第一机器语音;从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。

【技术特征摘要】
1.一种语音转换方法,所述方法包括:获取目标文本;合成与所述目标文本对应的第一机器语音;从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列;在同步机器语音库中,查找与所述异步机器语音单元序列对应的同步机器语音单元序列;根据所述同步机器语音单元序列的韵律特征,合成与所述目标文本对应的第二机器语音;从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元;将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音;其中,所述同步机器语音库、所述异步机器语音库和所述说话人语音库的文本内容相同,且所述说话人语音库与所述同步机器语音库的韵律特征相匹配。2.根据权利要求1所述的方法,其特征在于,所述从异步机器语音库中,筛选出韵律特征与所述第一机器语音的韵律特征匹配的异步机器语音单元序列,包括:按照所述第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列;确定所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度;将对应最小韵律特征差异度的候选异步机器语音单元序列,作为与所述第一机器语音的韵律特征匹配的异步机器语音单元序列。3.根据权利要求2所述的方法,其特征在于,所述按照所述第一机器语音,从异步机器语音库中获取候选异步机器语音单元序列,包括:确定所述第一机器语音所包括的机器语音单元的数量;从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的所述数量相等的候选异步机器语音单元序列。4.根据权利要求3所述的方法,其特征在于,所述从异步机器语音库中,获取包括的异步机器语音单元的数量与确定的所述数量相等的候选异步机器语音单元序列,包括:遍历异步机器语音库所包括的异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量小于确定的所述数量时,则继续所述遍历;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量等于确定的所述数量时,则将遍历至的异步机器语音单元序列作为候选异步机器语音单元序列;当遍历至的异步机器语音单元序列所包括的异步机器语音单元的数量大于确定的所述数量时,则将遍历至的异步机器语音单元序列,按照所包括的异步机器语音单元的顺序以及确定的所述数量,拆分出候选异步机器语音单元序列。5.根据权利要求2所述的方法,其特征在于,所述确定所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度,包括:从所述第一机器语音中划分出机器语音单元;根据所述候选异步机器语音单元序列所包括的各异步机器语音单元与各自对应的划分出的机器语音单元之间的韵律参数差异值,生成所述候选异步机器语音单元序列与所述第一机器语音的韵律特征差异度;其中,所述韵律参数差异值包括时长差异值、基频变化率差异值、声学参数的时长分布差异和基频变化率的概率分布差异中的至少一种。6.根据权利要求1所述的方法,其特征在于,所述从所述同步机器语音库中,挑选与所述第二机器语音声学特征匹配的同步机器语音单元,包括:从所述第二机器语音中划分出机器语音单元;确定划分出的各机器语音单元的读音特征;从所述同步机器语音库中,筛选读音特征与所述划分出的各机器语音单元的读音特征匹配的同步机器语音单元子集;对于各所述同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度;挑选出对应最小声学特征差异度的同步机器语音单元,作为与所述第二机器语音声学特征匹配的同步机器语音单元。7.根据权利要求6所述的方法,其特征在于,所述对于各所述同步机器语音单元子集中的各同步机器语音单元,确定与相应的划分出的机器语音单元的声学特征差异度,包括:确定各所述同步机器语音单元子集中各同步机器语音单元的声学参数;确定划分出的各所述机器语音单元的声学参数;对于各同步机器语音单元和相应的划分出的机器语音单元,计算相应的声学参数的差异值;根据所述差异值,生成与所述差异值正相关的声学特征差异度。8.根据权利要求1所述的方法,其特征在于,所述将说话人语音库中与所述同步机器语音单元对应的说话人语音单元拼接,得到说话人目标语音,包括:将挑选出的所述同步机器语音单元,按照所对应的目标文本中的读音顺序排序;确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置;在说话人语音库中,查找与所述同步机器语音单元对应的说话人语音单元;按照确定的相邻的同步机器语音单元的拼接位置拼接相应的所述说话人语音单元,得到说话人目标语音。9.根据权利要求8所述的方法,其特征在于,所述确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置,包括:获取从挑选出的各所述同步机器语音单元划分出的语音帧;确定相邻的同步机器语音单元的拼接重叠语音帧数;其中,相邻的同步机器语音单元各自的与所述拼接重叠语音帧数对应的语音帧之间的差异度最小化;根据所述拼接重叠语音帧数确定排序后的所述同步机器语音单元中相邻的同步机器语音单元的拼接位置。10.根据权利要求9所述的方法,其特征在于,所述确定相邻的同步机器语音单元的拼接重叠语音帧数包括:按照以下公式确定相邻的同步机器语音单元的拼接重叠语音帧数:其中,T表示相邻的同步机器语音单元的拼接重叠语音帧数,t表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧,CCt表示相邻的同步机器语音单元的拼接重叠语音帧中第t帧语音帧的差异度,表示求取T使得最小。11.根据权利要求1至10中任一项所述的方法,其特征在于,所述获取目标文本之前,所述方法还包括:收集说话人历史语音;识别所述说话人历史语音对应的文本内容;根据识别得到的所述文本内容生成异步机器语音单元序列;根据...

【专利技术属性】
技术研发人员:袁豪磊梅晓
申请(专利权)人:腾讯科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1