语音合成方法和装置制造方法及图纸

技术编号:28792355 阅读:17 留言:0更新日期:2021-06-09 11:30
本发明专利技术实施例公开了一种语音合成方法和装置,通过文本信息对应的音素序列、音频信息对应的音频特征向量序列以及目标场景对应的场景特征向量,根据音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。本发明专利技术实施例通过在语音合成过程中直接引入场景特征,使得通过同一语音合成方式在不同场景合成情感、语气不同的语音,实现了语音信息与场景的自动匹配。语音信息与场景的自动匹配。语音信息与场景的自动匹配。

【技术实现步骤摘要】
语音合成方法和装置


[0001]本专利技术涉及语音合成领域,尤其涉及一种语音合成方法和装置。

技术介绍

[0002]目前语音合成技术被广泛应用于各领域中,但不同的应用场景需要不同语气、情感的合成语音。现有技术在应对不同应用场景时会分别采用不同的语音合成方式,造成资源庞大的资源开销。

技术实现思路

[0003]有鉴于此,本专利技术实施例提供一种语音合成方法和装置,旨在自动合成与场景匹配的语音信息。
[0004]第一方面,本专利技术实施例提供了一种语音合成方法,所述方法包括:
[0005]确定文本信息和对应的音频信息;
[0006]确定所述文本信息对应的音素序列;
[0007]确定所述音频信息对应的音频特征向量序列,所述音频特征向量序列中包括多个音频特征向量;
[0008]确定目标场景对应的场景特征向量;
[0009]根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。
[0010]进一步地,所述确定文本信息和对应的音频信息包括:
[0011]确定文本信息;
[0012]根据所述文本进行录制对应的音频信息。
[0013]进一步地,所述确定所述文本信息对应的音素序列包括:
[0014]确定所述文本信息中各文字对应的音素;
[0015]根据各所述音素确定音素序列,各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。
[0016]进一步地,所述确定所述音频信息对应的音频特征向量序列包括:
[0017]对所述音频信息进行分帧,得到包括多个音频信息片段的音频信息片段序列;
[0018]对各所述音频信息片段进行音频特征提取,以确定音频特征向量序列。
[0019]进一步地,所述对各所述音频信息片段进行音频特征提取具体为:
[0020]提取各所述音频信息片段的Fbank特征。
[0021]进一步地,所述确定目标场景对应的场景特征向量包括:
[0022]对多个预设的场景标识信息进行独热编码,以确定多个场景独热向量,所述场景标识信息用于表征对应的场景;
[0023]确定目标场景对应的场景独热向量为场景特征向量。
[0024]进一步地,所述根据所述音素序列、音频特征向量序列和场景特征向量进行语音
合成,以确定对应的语音信息包括:
[0025]将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息。
[0026]进一步地,所述语音合成模型包括特征对齐层、特征拼接层和语音合成层;
[0027]所述将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息包括:
[0028]将所述音素序列和音频特征向量序列输入所述特征对齐层,输出音素向量序列;
[0029]将所述音素向量序列与所述场景特征向量输入所述特征拼接层进行特征拼接后输入语音合成层,以输出对应的语音信息。
[0030]第二方面,本专利技术实施例提供了一种语音合成装置,所述装置包括:
[0031]信息确定模块,用于确定文本信息和对应的音频信息;
[0032]第一序列确定模块,用于确定所述文本信息对应的音素序列;
[0033]第二序列确定模块,用于确定所述音频信息对应的音频特征向量序列,所述音频特征向量序列中包括多个音频特征向量;
[0034]向量确定模块,用于确定目标场景对应的场景特征向量;
[0035]语音合成模块,用于根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。
[0036]第三方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
[0037]第四方面,本专利技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
[0038]本专利技术实施例通过文本信息对应的音素序列、音频信息对应的音频特征向量序列以及目标场景对应的场景特征向量,根据音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。本专利技术实施例通过在语音合成过程中直接引入场景特征,使得通过同一语音合成方式在不同场景合成情感、语气不同的语音,实现了语音信息与场景的自动匹配。
附图说明
[0039]通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:
[0040]图1为本专利技术实施例的语音合成方法的流程图;
[0041]图2为本专利技术实施例确定音频特征向量的示意图;
[0042]图3为本专利技术实施例确定语音信息的示意图;
[0043]图4为本专利技术实施例的语音合成装置的示意图;
[0044]图5为本专利技术实施例的电子设备的示意图。
具体实施方式
[0045]以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下
文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
[0046]此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
[0047]除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
[0048]在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0049]本专利技术实施例的语音合成方法可以通过服务器或可以进行语音合成的终端设备实现,用于通过引入场景特征直接生成与场景相关的语音信息,可以应用于任意语音合成场景和语音合成模型的训练场景。其中,服务器可以为单个的服务器、多个服务器组成的服务器集群。终端设备可以移动终端或固定终端。
[0050]图1为本专利技术实施例的语音合成方法的流程图。如图1所示,所述语音合成方法包括以下步骤:
[0051]步骤S100、确定文本信息和对应的音频信息。
[0052]具体地,音频信息与对应的文本信息为表征相同内容、格式不同的信息。其中,音频信息是用于记载对应内容的波形信息,可以为任意音频格式。文本信息为用于记载对应内容的文字格式信息,可以为中文、英文等语言。例如,“你好”或者“hello”。可选地,音频信息和对应的文本信息可以互相转化。也就是说,音频信息和对应的文本信息可以根据需要进行语音合成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:确定文本信息和对应的音频信息;确定所述文本信息对应的音素序列;确定所述音频信息对应的音频特征向量序列,所述音频特征向量序列中包括多个音频特征向量;确定目标场景对应的场景特征向量;根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息。2.根据权利要求1所述的方法,其特征在于,所述确定文本信息和对应的音频信息包括:确定文本信息;根据所述文本进行录制对应的音频信息。3.根据权利要求1所述的方法,其特征在于,所述确定所述文本信息对应的音素序列包括:确定所述文本信息中各文字对应的音素;根据各所述音素确定音素序列,各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。4.根据权利要求1所述的方法,其特征在于,所述确定所述音频信息对应的音频特征向量序列包括:对所述音频信息进行分帧,得到包括多个音频信息片段的音频信息片段序列;对各所述音频信息片段进行音频特征提取,以确定音频特征向量序列。5.根据权利要求4所述的方法,其特征在于,所述对各所述音频信息片段进行音频特征提取具体为:提取各所述音频信息片段的Fbank特征。6.根据权利要求1所述的方法,其特征在于,所述确定目标场景对应的场景特征向量包括:对多个预设的场景标识信息进行独热编码,以确定多个场景独热向量,所述场景标识信息用于表征对应的场景;确定目标场景对应的场景独热向量为场景特征向量。7.根据权利要求1所述的方法,其特征在于,所述根据所述音素序列、音频特征向量序列和场景特征向量进行...

【专利技术属性】
技术研发人员:杨惠吴雨璇梁光周鼎皓陈昌儒
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1