用于语音生成任务的音频编码方法技术

技术编号：39821995 阅读：9 留言：0更新日期：2023-12-22 19:41

本发明专利技术公开用于语音生成任务的音频编码方法

全部详细技术资料下载

【技术实现步骤摘要】
用于语音生成任务的音频编码方法、电子设备和存储介质

[0001]本申请实施例涉及语音生成任务领域，特别是涉及一种用于语音生成任务的音频编码方法
、
电子设备和存储介质
。

技术介绍

[0002]相关技术中，自监督学习模型所衍生出来的离散音频特征已在语音生成任务中得到广泛应用
。
然而，现有的使用离散音频特征的方法没有对其进行处理，这种直接利用音频特征的做法对于序列建模提出了挑战，因为较长的特征序列使得模型难以学习
。
此外，这种方法依赖于模型来构建立特征之间的相关性，进一步复杂化建模过程
。
[0003]目前已有的
、
解决离散音频特征序列过长造成建模困难的方法主要是将连续重复出现的特征进行去重，比如将特征序列
[1,1,2,2,2,3,4]去重为
[1,2,3,4]用于语言模型建模
、
语音识别任务中
。
[0004]专利技术人认为，该方案的编码方式是单向的，即无法通过编码后的结果恢复原来的编码，这使得其只能用于语音识别等特定任务中，而无法用于例如语音生成任务中
。

技术实现思路

[0005]本专利技术实施例提供了一种用于语音生成任务的音频编码方法
、
电子设备和存储介质，用于至少解决上述技术问题之一
。
[0006]第一方面，本专利技术实施例提供了一种用于语音生成任务的音频编码方法，包括：使用训练好的预训练模型抽取音频波形的

【技术保护点】

【技术特征摘要】
1.
一种用于语音生成任务的音频编码方法，包括：使用训练好的预训练模型抽取音频波形的语义特征，将所述语义特征离散成离散特征序列；将所述离散特征序列映射成
Unicode
字符串，然后在所述
Unicode
字符串上训练
BPE
模型；使用训练好的字节对编码模型来编码所述
Unicode
字符串，得到声学
BPE
特征
。2.
根据权利要求1所述的方法，其中，所述预训练模型为
HuBERT
，所述将所述语义特征离散成离散特征序列包括使用
k
‑
means
聚类方法将所述语义特征离散成离散特征序列
。3.
根据权利要求1所述的方法，其中，所述方法还包括：使用所述声学
BPE
特征训练语音语言模型
。4.
根据权利要求3所述的方法，其中，语音语言模型为
Decoder

【专利技术属性】
技术研发人员：俞凯，沈飞宇，郭奕玮，杜晨鹏，陈谐，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人