一种声韵母发音时长预测方法、结构、终端及存储介质技术

技术编号:34561759 阅读:28 留言:0更新日期:2022-08-17 12:49
本发明专利技术公开了一种声韵母发音时长预测方法、结构、终端及存储介质。所述方法包括:将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;将所述第一隐状态映射为均值序列和标准差序列;将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。本发明专利技术实施例可以有效地减少标注时间与标注成本,同时,考虑了文本与音频对齐的单调性,有效减少了文本与音频对齐重复和对齐遗漏等问题,显著提升了对齐精度。提升了对齐精度。提升了对齐精度。

【技术实现步骤摘要】
一种声韵母发音时长预测方法、结构、终端及存储介质


[0001]本专利技术涉及智能语音
,特别是涉及一种声韵母发音时长预测方法、系统、终端及存储介质。

技术介绍

[0002]声韵母发音时长建模是指在给定文本及其对应音频的已知情况下,顺序输出文本对应每一个声韵母在音频中的起止时间。声韵母发音时长建模被广泛应用于视频、直播等领域,用于自动生成字幕时间戳。声韵母发音时长通常需要利用专业人员进行人工标注,需要耗费大量时间,标注成本较高。声韵母发音时长建模常利用自回归模型中的注意力机制对齐声韵母与音频之间的起止时间,实现了替代人工标注,但现有的声韵母发音时长建模普遍存在对齐关系重复或丢失等问题,尤其针对数据集较长文本的精度较差。MFA(Montreal Forced Aligner,一个命令行实用程序,使用Kaldi执行语音数据集的强制对齐)也常用于建模声韵母发音时长,其利用多维高斯分布建模每一个声韵母的发音时长,同时利用决策树聚类方法对多维高斯分布进行聚类。然而,声韵母时长预测值往往为多维高斯分布的均值,缺乏灵活性。因为其目标为最大化多维高斯联合分布概率。现有的声韵母发音时长建模方法均限制了声韵母发音时长建模的推广与应用。

技术实现思路

[0003]本专利技术提供了一种声韵母发音时长预测方法、结构、终端及存储介质,旨在解决现有的声韵母发音时长建模方法存在的精度较差以及缺乏灵活性等技术问题。
[0004]为解决上述技术问题,本专利技术采用的技术方案为:
[0005]一种声韵母发音时长预测方法,包括:
[0006]将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;
[0007]将所述第一隐状态映射为均值序列和标准差序列;
[0008]将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;
[0009]基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。
[0010]本专利技术实施例采取的技术方案还包括:所述将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态包括:
[0011]所述声韵母发音时长预测模型通过编码器计算得到用于表示文本特征的第一隐状态其中T
text
表示所述声韵母数据的长度;所述编码器为变分自编码器。
[0012]本专利技术实施例采取的技术方案还包括:所述将所述第一隐状态映射为均值序列和标准差序列包括:
[0013]通过所述声韵母发音时长预测模型的一维卷积将第一隐状态映射为均值序列和标准差序列
[0014]本专利技术实施例采取的技术方案还包括:所述将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态包括:
[0015]利用梅尔滤波器组从所述音频数据中提取出梅尔谱;
[0016]利用解码器将所述梅尔谱映射为用于表征音频数据的第二隐状态其中T
mel
表示梅尔谱的帧数。
[0017]本专利技术实施例采取的技术方案还包括:所述利用梅尔滤波器组从所述音频数据中提取出梅尔谱包括:
[0018]利用快速傅立叶变换算法计算所述音频数据的幅度谱;
[0019]通过设定维数的梅尔滤波器组对所述幅度谱进行转换,生成所述音频数据的梅尔谱。
[0020]本专利技术实施例采取的技术方案还包括:所述时长计算模块表示为A(j)=i,所述时长计算模块为单调函数,所述基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系包括:
[0021]通过最小化似然函数找到所述文本数据与音频数据对齐关系的最优解A*;所述似然函数表示在已知声韵母数据C时,计算最优解A*使得所述第二隐状态Z的概率分布约服从于C概率分布:
[0022][0023]使用维特比算法提取所述最优解A*中声韵母数据c
i
与梅尔谱x
j
的对应关系,得到每一个声韵母数据发音时长。
[0024]本专利技术实施例采取的技术方案还包括:所述最优解A*的计算过程包括:
[0025]初始化Q为负无穷,计算Q
i,j
为声韵母c
i
对应梅尔谱x
j
时似然函数log P(z
1:j
|c
1:i
;A)的最大值;
[0026]当j=2:T
mel
,i=2:min(j,T
text
),计算Q
i,j
=max(Q
i

1,j
‑1,Q
i,j
‑1)+log||z
j

N(μ
i
,σ
i
)||2;
[0027]迭代执行上一步,得到似然函数log P(Z|C;A
*
)的最大值此时使用维特比算法提取时长计算模块A中c
i
与x
j
的对应关系,得到文本数据与音频数据对齐关系的最优解A*。
[0028]本专利技术实施例采取的另一技术方案为:一种声韵母发音时长预测系统,包括:
[0029]第一隐状态计算模块:用于将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;
[0030]第一隐状态映射模块:用于将所述第一隐状态映射为均值序列和标准差序列;
[0031]第二隐状态计算模块:用于将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;
[0032]发音时长计算模块:用于基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。
[0033]本专利技术实施例采取的又一技术方案为:一种终端,所述终端包括处理器、与所述处理器耦接的存储器,其中,
[0034]所述存储器存储有用于实现上述的声韵母发音时长预测方法的程序指令;
[0035]所述处理器用于执行所述存储器存储的所述程序指令以执行所述端到端声韵母发音时长预测操作。
[0036]本专利技术实施例采取的又一技术方案为:一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行上述的声韵母发音时长预测方法。
[0037]本专利技术实施例的声韵母发音时长预测方法、结构、终端及存储介质利用normalizing flow的特性将音频梅尔谱映射为隐状态,通过隐状态与均值序列和标准差序列之间的概率分布关系判断声韵母数据与梅尔谱之间的对应关系,并利用迭代计算的方式计算出文本与音频对齐关系的最优解,从而得到每一个声韵母数据的发音时长。本专利技术实施例可以有效地减少标注时间与标注成本,同时,考虑了文本与音频对齐的单调性,有效减少了文本与音频对齐重复和对齐遗漏等问题,显著提升了对齐精度。...

【技术保护点】

【技术特征摘要】
1.一种声韵母发音时长预测方法,其特征在于,包括:将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态;将所述第一隐状态映射为均值序列和标准差序列;将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态;基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系,得到每一个声韵母数据的发音时长。2.根据权利要求1所述的声韵母发音时长预测方法,其特征在于,所述将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型,计算得到用于表示文本特征的第一隐状态包括:所述声韵母发音时长预测模型通过编码器计算得到用于表示文本特征的第一隐状态其中T
text
表示所述声韵母数据的长度;所述编码器为变分自编码器。3.根据权利要求2所述的声韵母发音时长预测方法,其特征在于,所述将所述第一隐状态映射为均值序列和标准差序列包括:通过所述声韵母发音时长预测模型的一维卷积将第一隐状态映射为均值序列和标准差序列4.根据权利要求3所述的声韵母发音时长预测方法,其特征在于,所述将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态包括:利用梅尔滤波器组从所述音频数据中提取出梅尔谱;利用解码器将所述梅尔谱映射为用于表征音频数据的第二隐状态其中T
mel
表示梅尔谱的帧数。5.根据权利要求4所述的声韵母发音时长预测方法,其特征在于,所述利用梅尔滤波器组从所述音频数据中提取出梅尔谱包括:利用快速傅立叶变换算法计算所述音频数据的幅度谱;通过设定维数的梅尔滤波器组对所述幅度谱进行转换,生成所述音频数据的梅尔谱。6.根据权利要求1至5任一项所述的声韵母发音时长预测方法,其特征在于,所述时长计算模块表示为A(j)=i,所述时长计算模块为单调函数,所述基于所述第二隐状态、均值序列和标准差序列,通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系包括:通过最小化似然函数找到所述文本数据与音频数据对齐关系的最优解A*;所述似然函数表示在已知声韵母数据C时,计算最优解A*使得所述第二隐状态Z的概率分布约服从于C概率分布:使用维特比算法提取所述最优解A*中声韵母数据c
i
与梅尔谱x
j<...

【专利技术属性】
技术研发人员:郭洋王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1