用于语音生成任务的音频编码方法技术

技术编号:39821995 阅读:9 留言:0更新日期:2023-12-22 19:41
本发明专利技术公开用于语音生成任务的音频编码方法

【技术实现步骤摘要】
用于语音生成任务的音频编码方法、电子设备和存储介质


[0001]本申请实施例涉及语音生成任务领域,特别是涉及一种用于语音生成任务的音频编码方法

电子设备和存储介质


技术介绍

[0002]相关技术中,自监督学习模型所衍生出来的离散音频特征已在语音生成任务中得到广泛应用

然而,现有的使用离散音频特征的方法没有对其进行处理,这种直接利用音频特征的做法对于序列建模提出了挑战,因为较长的特征序列使得模型难以学习

此外,这种方法依赖于模型来构建立特征之间的相关性,进一步复杂化建模过程

[0003]目前已有的

解决离散音频特征序列过长造成建模困难的方法主要是将连续重复出现的特征进行去重,比如将特征序列
[1,1,2,2,2,3,4]去重为
[1,2,3,4]用于语言模型建模

语音识别任务中

[0004]专利技术人认为,该方案的编码方式是单向的,即无法通过编码后的结果恢复原来的编码,这使得其只能用于语音识别等特定任务中,而无法用于例如语音生成任务中


技术实现思路

[0005]本专利技术实施例提供了一种用于语音生成任务的音频编码方法

电子设备和存储介质,用于至少解决上述技术问题之一

[0006]第一方面,本专利技术实施例提供了一种用于语音生成任务的音频编码方法,包括:使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;将所述离散特征序列映射成
Unicode
字符串,然后在所述
Unicode
字符串上训练
BPE
模型;以及使用训练好的字节对编码模型来编码所述
Unicode
字符串,得到声学
BPE
特征

[0007]第二方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术上述任一项用于语音生成任务的音频编码方法

[0008]第三方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备
(
包括但不限于计算机,服务器,或者网络设备等
)
读取并执行,以用于执行本专利技术上述任一项用于语音生成任务的音频编码方法

[0009]第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于语音生成任务的音频编码方法

[0010]本申请的方案通过
BPE
的编码方式,将离散音频序列中频繁出现的模型编码为一个单元,减少了序列长度,使得模型更容易建模序列;同时,这种编码方式包含了音频特征序列间的联系,减轻了模型建模的复杂性

这两点使得声学
BPE
更适合于语音生成类任务,
我们的实验也证明该声学
BPE
编码方式提高了语义建模的能力

附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0012]图1为本专利技术一实施例提供的一种用于语音生成任务的音频编码方法的流程图;
[0013]图2为本专利技术一实施例提供的声学
BPE
的编码算法的一个具体实现的流程图;
[0014]图3为本专利技术一实施例提供的富韵律
TTS
多种合成结果的
rescore(
重新打分
)
方法:
[0015]图4为本专利技术一实施例提供的四种声学
BPE(aBPE)
变体的序列长度和推理速度比较;
[0016]图5为本专利技术一实施例提供的四种声学
BPE
变体的语义准确率;
[0017]图6为本专利技术一实施例提供的四种声学
BPE
变体的交叉熵
(cross

entropy)
比较;
[0018]图7为本专利技术一实施例提供的四种声学
BPE
变体的前1到前3的准确率的比较;
[0019]图8为本专利技术一实施例提供的两次偏好测试的结果示意图;
[0020]图9为本专利技术一实施例提供的电子设备的结构示意图

具体实施方式
[0021]为使本专利技术实施例的目的

技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例

基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围

[0022]请参考图1,其示出了本专利技术一实施例提供的一种用于语音生成任务的音频编码方法的流程图

[0023]如图1所示,在步骤
101
中,使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;
[0024]在步骤
102
中,将所述离散特征序列映射成
Unicode
字符串,然后在所述
Unicode
字符串上训练
BPE
模型;
[0025]在步骤
103
中,使用训练好的
BPE
模型来编码所述
Unicode
字符串,得到声学
BPE
特征

[0026]其中,
BPE(byte

pair encoding
,字节对编码
)
是一种将词拆分成子词
(subword)
的编码方法,
Unicode
是一种文本编码方式

[0027]本申请实施例的方案通过将频繁出现的特征模式编码为单个单元,有效地减少了序列长度,并利用了特征序列中存在的形态信息,从而缓解了模型在建模特征之间相关性的挑战
[0028]在一些可选的实施例中,所述预训练模型为
HuBERT
,所述将所述语义特征离散成离散特征序列包括使用
k
...

【技术保护点】

【技术特征摘要】
1.
一种用于语音生成任务的音频编码方法,包括:使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;将所述离散特征序列映射成
Unicode
字符串,然后在所述
Unicode
字符串上训练
BPE
模型;使用训练好的字节对编码模型来编码所述
Unicode
字符串,得到声学
BPE
特征
。2.
根据权利要求1所述的方法,其中,所述预训练模型为
HuBERT
,所述将所述语义特征离散成离散特征序列包括使用
k

means
聚类方法将所述语义特征离散成离散特征序列
。3.
根据权利要求1所述的方法,其中,所述方法还包括:使用所述声学
BPE
特征训练语音语言模型
。4.
根据权利要求3所述的方法,其中,语音语言模型为
Decoder

【专利技术属性】
技术研发人员:俞凯沈飞宇郭奕玮杜晨鹏陈谐
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1