一种语音合成方法技术

技术编号:18085506 阅读:41 留言:0更新日期:2018-05-31 14:01
本发明专利技术公开了一种语音合成方法,属于语音处理技术领域;上述方法中,预先设定多类人物角色以及预设合成器参数集合,还包括:获取语句文本;从语句文本中分析得到每段引用部分,以及对应每段引用部分的说话角色;针对语句文本全局规整说话角色,并且将说话角色与预设的人物角色进行匹配,根据匹配结果分别确定说话角色所对应的人物角色以及合成器参数集合;根据每个说话角色的合成器参数集合对对应的引用部分进行语音合成,从而形成对应于语句文本的合成语音并输出。上述技术方案的有益效果是:区分不同的人物角色性格并反应到合成语音中,提升各人物角色的辨识度,使得合成语音更接近人们对文本进行描述的效果,从而提升用户体验。

【技术实现步骤摘要】
一种语音合成方法
本专利技术涉及语音处理
,尤其涉及一种语音合成方法。
技术介绍
随着语音技术的不断发展,越来越多的软件应用开始涵盖语音识别和处理的内容,例如某软件应用对用户输入的文本进行识别,并且根据识别结果合成并输出相应的语音。通常在现实生活中,尤其在描述故事类型的语言中,同一个发音人经常会采用改变语气语调的方式来区分不同的人物和场景,例如妈妈给孩子讲述有关狼与小羊的故事中,在讲述狼说话时就会采用比较低沉沙哑的嗓音来诠释,说到小羊时又会用比较可爱尖细的嗓音表达,这样的表达方式既自然又很具有特色,孩子一下子就能分辨不同性格不同设定的说话角色。又例如在一些评书作品中,对于不同人物的塑造可能会采用粗细不同的声音来实现,不需要旁白听众也能很容易区分不同人物之间的对话。但是在传统的语音软件应用中,根据大段文本语句合成并输出的语音通常是采用一个比较平滑的语调统一进行播放,给用户的体验就是在听一个机器以完全没有情绪波动的语调播放语音,并且上述播放方式容易混淆文本中不同性格不同设定的说话角色,用户需要仔细倾听合成语音并从播放的内容中才能对不同的说话角色进行区分,这使得输出的合成语音与现实生活中人们对文本语句进行描述的效果完全不符,因此会降低用户体验。
技术实现思路
根据现有技术中存在的上述问题,现提供一种语音合成方法的技术方案,旨在区分不同的人物角色性格并反应到合成语音中,提升合成语音中各人物角色的辨识度,使得合成语音更接近人们对文本进行描述的效果,从而提升用户体验。上述技术方案具体包括:一种语音合成方法,其特征在于,预先设定多类人物角色以及分别针对每类人物角色预设合成器参数集合,还包括:步骤S1,获取待合成的语句文本;步骤S2,从语句文本中分析得到每段引用部分,以及分别对应每段引用部分的说话角色;步骤S3,针对语句文本全局规整说话角色,并且将说话角色与预设的人物角色进行匹配,根据匹配结果分别确定说话角色所对应的人物角色以及合成器参数集合;步骤S4,根据每个说话角色的合成器参数集合对对应的引用部分进行语音合成,从而形成对应于语句文本的合成语音并输出。优选的,该语音合成方法,其特征在于,步骤S2具体包括:步骤S21,将语句文本分解为多个独立的句子;步骤S22,分别从每个句子中分析得到引用部分以及分别对应每段引用部分的说话角色。优选的,该语音合成方法,其特征在于,步骤S22中,根据标点符号的约束,采用文本分析手段分别从每个句子中分析得到引用部分,以及分别根据引用部分分析得到对应的说话角色。优选的,该语音合成方法,其特征在于,合成器参数集合中包括多个合成器参数;合成器参数包括共振峰参数,和/或基频参数,和/或基频波动比参数,和/或语速参数。优选的,该语音合成方法,其特征在于,预设的多个人物角色中包括一用于表示旁白的旁白角色;步骤S3中,将语句文本中除去引用部分和说话角色的部分与旁白角色相匹配;步骤S4中,采用对应于旁白角色的合成器参数集合对语句文本中除去引用部分和说话角色的部分进行语音合成。优选的,该语音合成方法,其特征在于,预设的每类人物角色中包括多个子角色;步骤S3中,针对一个说话角色,根据匹配结果从对应的一类人物角色中选择一个子角色并确定为说话角色所对应的人物角色。优选的,该语音合成方法,其特征在于,步骤S3中,针对每个说话角色分别匹配对应的人物角色后输出匹配结果供用户查看,并在用户查看并确认匹配结果后转向步骤S4。优选的,该语音合成方法,其特征在于,预先针对每类人物角色设置一个角色标签;步骤S3中,输出的匹配结果为在语句文本的每个说话角色的位置添加对应的角色标签形成的角色文本。上述技术方案的有益效果是:提供一种语音合成方法,能够区分不同的人物角色性格并反应到合成语音中,提升合成语音中各人物角色的辨识度,使得合成语音更接近人们对文本进行描述的效果,从而提升用户体验。附图说明图1是本专利技术的较佳的实施例中,一种语音合成方法的总体流程示意图;图2是本专利技术的较佳的实施例中,找到引用部分以及对应的说话角色的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。根据现有技术中存在的上述问题,现提供一种语音合成方法,该语音合成方法能够在根据文本合成语音的同时区分文本中不同性格不同设定的说话角色,从而使得输出的合成语音更符合人们的描述语言。上述语音合成方法中,预先设定多类人物角色以及分别针对每类人物角色预设一个合成器参数集合。随后执行如图1中所述的步骤:步骤S1,获取待合成的语句文本;步骤S2,从语句文本中分析得到每段引用部分,以及分别对应每段引用部分的说话角色;步骤S3,针对语句文本全局规整说话角色,并且将说话角色与预设的人物角色进行匹配,根据匹配结果分别确定说话角色所对应的人物角色以及合成器参数集合;步骤S4,根据每个说话角色的合成器参数集合对对应的引用部分进行语音合成,从而形成对应于语句文本的合成语音并输出。具体地,本实施例中,执行上述语音合成方法之前,首先预设多类人物角色以及分别针对每类人物角色预设合成器参数集合。具体地,预设的多类人物角色可以是符合现实中人们说话经常涉及到的一些基本的人物角色,例如男人和女人,或者更细分一点可以包括男人、女人、老人和小孩等。对于不同类别的人物角色分别设定不同的合成器参数集合。每个合成器参数集合中包括多个合成器参数,将某个合成器参数集合放入语音合成引擎中就可以模拟形成对应的人物角色所特有的语音、语调乃至语速等,从而在合成语音中实现对应的人物角色的说话效果。本实施例中,一个标准的待合成语句文本中通常包括大段的语句,这些语句大致可以分为几类:1)处于两个引号之间的语句,这类语句可能表示某个具有特殊含义的词语或短语,或者表示某个说话角色说的一段话。可以通过引用部分中包括的文字或词语的长短来区分到底是具有特殊含义的词语或短语还是具体的一段话。下文中以“引用部分”来表示这类语句。2)处于用于表示一段话的引用部分前的词语,这类词语通常用于表示后续引用部分所对应的说话角色。下文中以“说话角色”来表示这类词语3)除去上述引用部分和说话角色之外的所有语句,这类语句表达的通常是一些描述性的内容,例如对对话发生的场景的描述,以及对说话角色的描述等。下文中以“非引用部分”来表示这类语句。并且,将上述第1)类中用于表示具有特殊含义的词语或短语的引用部分也归类到非引用部分中。则本实施例中,首先获取待识别的语句文本,获取方式可以是通过输入设备由用户直接输入,也可以通过爬虫引擎抓取网络上的文本,或者通过用户的指定网络地址下载相应的文本,在此不再赘述。本实施例中,获取到待识别的语句文本后,首先需要对语句文本进行分句,以将整个文本分解成多个独立的语句,方便后续分析处理。该分句的处理可以由处理器执行。本实施例中,经过分句后,整个文本形成多个独立本文档来自技高网...
一种语音合成方法

【技术保护点】
一种语音合成方法,其特征在于,预先设定多类人物角色以及分别针对每类所述人物角色预设合成器参数集合,还包括:步骤S1,获取单元获取待合成的语句文本;步骤S2,从所述语句文本中分析得到每段引用部分,以及分别对应每段所述引用部分的说话角色;步骤S3,针对所述语句文本全局规整所述说话角色,并且将所述说话角色与预设的所述人物角色进行匹配,根据匹配结果分别确定所述说话角色所对应的所述人物角色以及所述合成器参数集合;步骤S4,根据每个所述说话角色的所述合成器参数集合对对应的所述引用部分进行语音合成,从而形成对应于所述语句文本的合成语音并输出。

【技术特征摘要】
1.一种语音合成方法,其特征在于,预先设定多类人物角色以及分别针对每类所述人物角色预设合成器参数集合,还包括:步骤S1,获取单元获取待合成的语句文本;步骤S2,从所述语句文本中分析得到每段引用部分,以及分别对应每段所述引用部分的说话角色;步骤S3,针对所述语句文本全局规整所述说话角色,并且将所述说话角色与预设的所述人物角色进行匹配,根据匹配结果分别确定所述说话角色所对应的所述人物角色以及所述合成器参数集合;步骤S4,根据每个所述说话角色的所述合成器参数集合对对应的所述引用部分进行语音合成,从而形成对应于所述语句文本的合成语音并输出。2.如权利要求1所述的语音合成方法,其特征在于,所述步骤S2具体包括:步骤S21,将所述语句文本分解为多个独立的句子;步骤S22,分别从每个所述句子中分析得到所述引用部分以及分别对应每段所述引用部分的说话角色。3.如权利要求2所述的语音合成方法,其特征在于,所述步骤S22中,根据标点符号的约束,采用文本分析手段分别从每个所述句子中分析得到所述引用部分,以及分别根据所述引用部分分析得到对应的说话角色。4.如权利要求1所述的语音合成方法,其特征在于,所述合成器参数集合中包括多个合成器参...

【专利技术属性】
技术研发人员:孟猛
申请(专利权)人:芋头科技杭州有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1