一种合成语音的变奏方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34248624 阅读:21 留言:0更新日期:2022-07-24 10:59
本发明专利技术公开了一种合成语音的变奏方法、装置、电子设备及存储介质,用于解决现有的合成语音层次感不够分明,生动性差的技术问题。本发明专利技术包括:获取预处理文本,并从所述预处理文本中识别自然段落;对所述自然段落进行调整,得到实际段落;依次计算相邻两个实际段落的相关性;生成所述实际段落的合成语音;获取所述合成语音中各所述实际段落的语言节奏;根据所述相关性对所述语言节奏进行调整,得到变奏合成语音。成语音。成语音。

A variation method, device, electronic device and storage medium of synthetic speech

【技术实现步骤摘要】
一种合成语音的变奏方法、装置、电子设备及存储介质


[0001]本专利技术涉及语音变奏
,尤其涉及一种合成语音的变奏方法、装置、电子设备及存储介质。

技术介绍

[0002]语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。这与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然后回放来实现“让机器说话”的。但这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。
[0003]在语音合成中,选择基本节奏是最重要的一个步骤,基本节奏一般是由文本的基调来决定的。然而,基于基调决定的基本节奏是比较稳定的,由此进行的语音合成而来的语音层次感不够分明,生硬而不生动。

技术实现思路

[0004]本专利技术提供了一种合成语音的变奏方法、装置、电子设备及存储介质,用于解决现有的合成语音层次感不够分明,生动性差的技术问题。
[0005]本专利技术提供了一种合成语音的变奏方法,包括:获取预处理文本,并从所述预处理文本中识别自然段落;对所述自然段落进行调整,得到实际段落;依次计算相邻两个实际段落的相关性;生成所述实际段落的合成语音;获取所述合成语音中各所述实际段落的语言节奏;根据所述相关性对所述语言节奏进行调整,得到变奏合成语音。可选地,所述获取预处理文本,并从所述预处理文本中识别自然段落的步骤,包括:获取预处理文本,并识别所述预处理文本中的换行键;基于所述换行键将所述预处理文本拆分为若干个自然段落。可选地,所述对所述自然段落进行调整,得到实际段落的步骤,包括:判断每个所述自然段落是否只有一种场景;若否,根据场景拆分所述自然段落,生成实际段落;若是,判断相邻两个自然段落是否为同一种场景;若是,将同一个场景的相邻两个自然段落合并为同一个实际段落。可选地,所述根据所述相关性对所述语言节奏进行调整,得到变奏合成语音的步骤,包括:遍历所有所述实际段落,依次将每个所述实际段落确定为当前调整段落;当当前调整段落与上一实际段落的相关性大于第一预设阈值时,调整所述当前调整段落的语言节奏,得到变奏段落;所述变奏段落具有若干个句子;确定所述变奏段落中相邻两个句子的句子相关性;当当前句子与上一句子的句子相关性大于第二预设阈值时,调整所述当前句子的语言节奏,得到句子调整节奏;采用所有实际段落中每个句子的句子调整节奏,生成变奏合成语音。可选地,所述当当前调整段落与上一实际段落的段落相关性大于第一预设阈值时,
调整所述当前调整段落的语言节奏,得到变奏段落的步骤,包括:当当前调整段落与上一实际段落的相关性大于第一预设阈值时,获取当前实际段落的第一段落调整指标与所述上一实际段落的第二段落调整指标;比较所述第一段落调整指标和所述第二段落调整指标,确定目标段落调整指标;基于所述目标段落调整指标调整所述当前调整段落的语言节奏,得到变奏段落。本专利技术还提供了一种合成语音的变奏装置,包括:自然段落识别模块,用于获取预处理文本,并从所述预处理文本中识别自然段落;实际段落获取模块,用于对所述自然段落进行调整,得到实际段落;相关性计算模块,用于依次计算相邻两个实际段落的相关性;合成语音生成模块,用于生成所述实际段落的合成语音;语言节奏获取模块,用于获取所述合成语音中各所述实际段落的语言节奏;变奏模块,用于根据所述相关性对所述语言节奏进行调整,得到变奏合成语音。可选地,所述自然段落识别模块,包括:换行键识别子模块,用于获取预处理文本,并识别所述预处理文本中的换行键;预处理文本拆分子模块,用于基于所述换行键将所述预处理文本拆分为若干个自然段落。可选地,所述实际段落获取模块,包括:第一场景判断子模块,用于判断每个所述自然段落是否只有一种场景;自然段落拆分子模块,用于若否,根据场景拆分所述自然段落,生成实际段落;第二场景判断子模块,用于若是,判断相邻两个自然段落是否为同一种场景;段落合并子模块,用于若是,将同一个场景的相邻两个自然段落合并为同一个实际段落。本专利技术还提供了一种电子设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行如上任一项所述的合成语音的变奏方法。本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上任一项所述的合成语音的变奏方法。
[0006]从以上技术方案可以看出,本专利技术具有以下优点:本专利技术通过获取预处理文本,并从预处理文本中识别自然段落;对自然段落进行调整,得到实际段落;依次计算相邻两个实际段落的相关性;生成实际段落的合成语音;获取合成语音中各实际段落的语言节奏;根据相关性对语言节奏进行调整,得到变奏合成语音。调整了合成语音中的语言节奏,从而使得合成语音层次更分明、生动。
附图说明
[0007]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0008]图1为本专利技术实施例提供的一种合成语音的变奏方法的步骤流程图;图2为本专利技术另一实施例提供的一种合成语音的变奏方法的步骤流程图;图3为本专利技术实施例提供的一种合成语音的变奏装置的结构框图。
具体实施方式
[0009]本专利技术实施例提供了一种合成语音的变奏方法、装置、电子设备及存储介质,用于解决现有的合成语音层次感不够分明,生动性差的技术问题。
[0010]为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术
实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0011]请参阅图1,图1为本专利技术实施例提供的一种合成语音的变奏方法的步骤流程图。
[0012]本专利技术提供的一种合成语音的变奏方法,具体可以包括以下步骤:步骤101,获取预处理文本,并从预处理文本中识别自然段落;在本专利技术实施例中,在获取到需要进行语音合成的预处理文本后,可以对其进行段落识别,将预处理文本分为若干个自然段落。
[0013]步骤102,对自然段落进行调整,得到实际段落;在实际应用中,有些时候会出现作者误分段,或者因为排版的原因导致分段变化,使得同一个段落被拆分或者不同段落被合并,导致一个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合成语音的变奏方法,其特征在于,包括:获取预处理文本,并从所述预处理文本中识别自然段落;对所述自然段落进行调整,得到实际段落;依次计算相邻两个实际段落的相关性;生成所述实际段落的合成语音;获取所述合成语音中各所述实际段落的语言节奏;根据所述相关性对所述语言节奏进行调整,得到变奏合成语音。2.根据权利要求1所述的方法,其特征在于,所述获取预处理文本,并从所述预处理文本中识别自然段落的步骤,包括:获取预处理文本,并识别所述预处理文本中的换行键;基于所述换行键将所述预处理文本拆分为若干个自然段落。3.根据权利要求1所述的方法,其特征在于,所述对所述自然段落进行调整,得到实际段落的步骤,包括:判断每个所述自然段落是否只有一种场景;若否,根据场景拆分所述自然段落,生成实际段落;若是,判断相邻两个自然段落是否为同一种场景;若是,将同一个场景的相邻两个自然段落合并为同一个实际段落。4.根据权利要求1所述的方法,其特征在于,所述根据所述相关性对所述语言节奏进行调整,得到变奏合成语音的步骤,包括:遍历所有所述实际段落,依次将每个所述实际段落确定为当前调整段落;当当前调整段落与上一实际段落的相关性大于第一预设阈值时,调整所述当前调整段落的语言节奏,得到变奏段落;所述变奏段落具有若干个句子;确定所述变奏段落中相邻两个句子的句子相关性;当当前句子与上一句子的句子相关性大于第二预设阈值时,调整所述当前句子的语言节奏,得到句子调整节奏;采用所有实际段落中每个句子的句子调整节奏,生成变奏合成语音。5.根据权利要求4所述的方法,其特征在于,所述当当前调整段落与上一实际段落的段落相关性大于第一预设阈值时,调整所述当前调整段落的语言节奏,得到变奏段落的步骤,包括:当当前调整段落与上一实际段落的相关性大于第一预设阈值时,获取当前实际段落的第一段落调整指标与所述上一实际段落的第二段...

【专利技术属性】
技术研发人员:余勇钟少恒王翊王佳骏陈志刚陈捷曹小冬吴启明蔡勇超林承勋吕华良丁铖林家树郭泽豪符春造方美明陈瑾李鸿盛
申请(专利权)人:广东电网有限责任公司佛山供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1