语音合成方法和装置制造方法及图纸

技术编号：28792355 阅读：17 留言：0更新日期：2021-06-09 11:30

本发明专利技术实施例公开了一种语音合成方法和装置，通过文本信息对应的音素序列、音频信息对应的音频特征向量序列以及目标场景对应的场景特征向量，根据音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。本发明专利技术实施例通过在语音合成过程中直接引入场景特征，使得通过同一语音合成方式在不同场景合成情感、语气不同的语音，实现了语音信息与场景的自动匹配。语音信息与场景的自动匹配。语音信息与场景的自动匹配。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法和装置

[0001]本专利技术涉及语音合成领域，尤其涉及一种语音合成方法和装置。

技术介绍

[0002]目前语音合成技术被广泛应用于各领域中，但不同的应用场景需要不同语气、情感的合成语音。现有技术在应对不同应用场景时会分别采用不同的语音合成方式，造成资源庞大的资源开销。

技术实现思路

[0003]有鉴于此，本专利技术实施例提供一种语音合成方法和装置，旨在自动合成与场景匹配的语音信息。
[0004]第一方面，本专利技术实施例提供了一种语音合成方法，所述方法包括：
[0005]确定文本信息和对应的音频信息；
[0006]确定所述文本信息对应的音素序列；
[0007]确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量；
[0008]确定目标场景对应的场景特征向量；
[0009]根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。
[0010]进一步地，所述确定文本信息和对应的音频信息包括：
[0011]确定文本信息；
[0012]根据所述文本进行录制对应的音频信息。
[0013]进一步地，所述确定所述文本信息对应的音素序列包括：
[0014]确定所述文本信息中各文字对应的音素；
[0015]根据各所述音素确定音素序列，各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。
[0016]进一步地，所述确定所述音频信息对...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，所述方法包括：确定文本信息和对应的音频信息；确定所述文本信息对应的音素序列；确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量；确定目标场景对应的场景特征向量；根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息。2.根据权利要求1所述的方法，其特征在于，所述确定文本信息和对应的音频信息包括：确定文本信息；根据所述文本进行录制对应的音频信息。3.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息对应的音素序列包括：确定所述文本信息中各文字对应的音素；根据各所述音素确定音素序列，各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。4.根据权利要求1所述的方法，其特征在于，所述确定所述音频信息对应的音频特征向量序列包括：对所述音频信息进行分帧，得到包括多个音频信息片段的音频信息片段序列；对各所述音频信息片段进行音频特征提取，以确定音频特征向量序列。5.根据权利要求4所述的方法，其特征在于，所述对各所述音频信息片段进行音频特征提取具体为：提取各所述音频信息片段的Fbank特征。6.根据权利要求1所述的方法，其特征在于，所述确定目标场景对应的场景特征向量包括：对多个预设的场景标识信息进行独热编码，以确定多个场景独热向量，所述场景标识信息用于表征对应的场景；确定目标场景对应的场景独热向量为场景特征向量。7.根据权利要求1所述的方法，其特征在于，所述根据所述音素序列、音频特征向量序列和场景特征向量进行...

【专利技术属性】
技术研发人员：杨惠，吴雨璇，梁光，周鼎皓，陈昌儒，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人