一种声韵母发音时长预测方法、结构、终端及存储介质技术

技术编号：34561759 阅读：28 留言：0更新日期：2022-08-17 12:49

本发明专利技术公开了一种声韵母发音时长预测方法、结构、终端及存储介质。所述方法包括：将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型，计算得到用于表示文本特征的第一隐状态；将所述第一隐状态映射为均值序列和标准差序列；将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态；基于所述第二隐状态、均值序列和标准差序列，通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系，得到每一个声韵母数据的发音时长。本发明专利技术实施例可以有效地减少标注时间与标注成本，同时，考虑了文本与音频对齐的单调性，有效减少了文本与音频对齐重复和对齐遗漏等问题，显著提升了对齐精度。提升了对齐精度。提升了对齐精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种声韵母发音时长预测方法、结构、终端及存储介质

[0001]本专利技术涉及智能语音
，特别是涉及一种声韵母发音时长预测方法、系统、终端及存储介质。

技术介绍

[0002]声韵母发音时长建模是指在给定文本及其对应音频的已知情况下，顺序输出文本对应每一个声韵母在音频中的起止时间。声韵母发音时长建模被广泛应用于视频、直播等领域，用于自动生成字幕时间戳。声韵母发音时长通常需要利用专业人员进行人工标注，需要耗费大量时间，标注成本较高。声韵母发音时长建模常利用自回归模型中的注意力机制对齐声韵母与音频之间的起止时间，实现了替代人工标注，但现有的声韵母发音时长建模普遍存在对齐关系重复或丢失等问题，尤其针对数据集较长文本的精度较差。MFA(Montreal Forced Aligner，一个命令行实用程序,使用Kaldi执行语音数据集的强制对齐)也常用于建模声韵母发音时长，其利用多维高斯分布建模每一个声韵母的发音时长，同时利用决策树聚类方法对多维高斯分布进行聚类。然而，声韵母时长预测值往往为多维高斯分布的均值，缺乏灵活性。因为其目标为最大化多维高斯联合分布概率。现有的声韵母发音时长建模方法均限制了声韵母发音时长建模的推广与应用。

技术实现思路

[0003]本专利技术提供了一种声韵母发音时长预测方法、结构、终端及存储介质，旨在解决现有的声韵母发音时长建模方法存在的精度较差以及缺乏灵活性等技术问题。
[0004]为解决上述技术问题，本专利技术采用的技术方案为：
[0005]一种声韵母发音时长预测方法

【技术保护点】

【技术特征摘要】
1.一种声韵母发音时长预测方法，其特征在于，包括：将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型，计算得到用于表示文本特征的第一隐状态；将所述第一隐状态映射为均值序列和标准差序列；将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态；基于所述第二隐状态、均值序列和标准差序列，通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系，得到每一个声韵母数据的发音时长。2.根据权利要求1所述的声韵母发音时长预测方法，其特征在于，所述将文本数据的声韵母数据输入预训练好的声韵母发音时长预测模型，计算得到用于表示文本特征的第一隐状态包括：所述声韵母发音时长预测模型通过编码器计算得到用于表示文本特征的第一隐状态其中T
text
表示所述声韵母数据的长度；所述编码器为变分自编码器。3.根据权利要求2所述的声韵母发音时长预测方法，其特征在于，所述将所述第一隐状态映射为均值序列和标准差序列包括：通过所述声韵母发音时长预测模型的一维卷积将第一隐状态映射为均值序列和标准差序列4.根据权利要求3所述的声韵母发音时长预测方法，其特征在于，所述将所述文本数据对应的音频数据的梅尔谱映射为第二隐状态包括：利用梅尔滤波器组从所述音频数据中提取出梅尔谱；利用解码器将所述梅尔谱映射为用于表征音频数据的第二隐状态其中T
mel
表示梅尔谱的帧数。5.根据权利要求4所述的声韵母发音时长预测方法，其特征在于，所述利用梅尔滤波器组从所述音频数据中提取出梅尔谱包括：利用快速傅立叶变换算法计算所述音频数据的幅度谱；通过设定维数的梅尔滤波器组对所述幅度谱进行转换，生成所述音频数据的梅尔谱。6.根据权利要求1至5任一项所述的声韵母发音时长预测方法，其特征在于，所述时长计算模块表示为A(j)＝i，所述时长计算模块为单调函数，所述基于所述第二隐状态、均值序列和标准差序列，通过时长计算模块计算出所述声韵母数据与梅尔谱之间的对应关系包括：通过最小化似然函数找到所述文本数据与音频数据对齐关系的最优解A*；所述似然函数表示在已知声韵母数据C时，计算最优解A*使得所述第二隐状态Z的概率分布约服从于C概率分布：使用维特比算法提取所述最优解A*中声韵母数据c
i
与梅尔谱x
j<...

【专利技术属性】
技术研发人员：郭洋，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人