语音合成方法及装置制造方法及图纸

技术编号：42615021 阅读：37 留言：0更新日期：2024-09-03 18:21

本申请涉及一种语音合成方法及装置，其中，该方法包括：响应于语音合成请求，从语音合成请求中解析出文本数据及音频数据，并从文本数据中提取出文本特征，从音频数据中提取出目标对象的音频特征；利用多头注意力机制捕捉文本特征和音频特征之间的关系，得到关联关系矩阵；将关联关系矩阵分为第一关联矩阵和第二关联矩阵，对第一关联矩阵进行权重映射线性变换，对第二关联矩阵进行样条插值线性变换，并对权重映射线性变换的结果和样条插值线性变换的结果进行融合，得到融合特征；基于融合特征，生成模拟目标对象的合成语音，其中，合成语音的语音内容为文本数据中的文字内容。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音合成，特别是涉及一种语音合成方法及装置。

技术介绍

1、随着人工智能技术的迅猛发展，ai技术在多个领域得到了广泛的研究和应用，其中自然语言处理（nlp）和语音处理尤为重要。通过语音生成模型，能够将文本转换为合成语音，从而供用户播放。然而，当前的语音生成技术需要先将文本映射为语音特征，再通过这些特征生成语音。这个过程中需要对声码器进行训练，以确保准确的特征映射。然而，文本到语音的合成过程中，预测得到的语音特征往往与从真实语音中提取的特征存在差异，这种不匹配会降低合成语音的准确性。

2、针对语音合成不准确的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种语音合成方法及装置，至少解决语音合成不准确的问题。

2、根据本申请实施例的一个方面，提供了一种语音合成方法，包括：响应于语音合成请求，从所述语音合成请求中解析出文本数据及音频数据，并从所述文本数据中提取出文本特征，从所述音频数据中提取出目标对象的音频特征；利用多头注意力机制捕捉所...

【技术保护点】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一关联矩阵进行权重映射线性变换，对所述第二关联矩阵进行样条插值线性变换，包括：

3.根据权利要求2所述的方法，其特征在于，利用共享基函数和第一权重矩阵对所述第一关联矩阵进行所述权重映射线性变换，得到所述权重映射线性变换的结果，包括：

4.根据权利要求2所述的方法，其特征在于，利用样条插值函数和第二权重矩阵对所述第二关联矩阵进行所述样条插值线性变换，得到所述样条插值线性变换的结果，包括：

5.根据权利要求1所述的方法，其特征在于，利用多头注意力机制捕捉...

【技术特征摘要】

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述第一关联矩阵进行权重映射线性变换，对所述第二关联矩阵进行样条插值线性变换，包括：

5.根据权利要求1所述的方法，其特征在于，利用多头注意力机制捕捉所述文本特征和所述音频特征之间的关联关系，包括：

6.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：蒋正浩，
申请(专利权)人：世优北京科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人