一种音频处理方法、装置、设备及介质制造方法及图纸

技术编号：28747908 阅读：20 留言：0更新日期：2021-06-06 19:07

本申请公开了一种音频处理方法、装置、设备、介质，该方法包括：基于待对齐语音对应的文本信息以及预设的音素集合确定待对齐语音中包括的目标音素；基于目标音素确定对应的初步对齐后音素序列；基于初步对齐后音素序列生成合成语音，并基于合成语音和待对齐语音对初步对齐后音素序列进行校准，得到校准后音素序列；将校准后音素序列作为目标音素序列，并基于目标音素序列中各个音素对应的语音帧在待对齐语音中的起始位置和终止位置，对目标音素序列和待对齐语音进行时间对齐。这样能够对初步对齐后音素序列进行自校正和自调整，显著提升对齐精度。升对齐精度。升对齐精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频处理方法、装置、设备及介质

[0001]本申请涉及计算机
，特别涉及一种音频处理方法、装置、设备、介质。

技术介绍

[0002]音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma
‑
mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。而音素对齐指的是将音频和音素在时间轴上对齐的技术。一般情况下，只有歌词的文本信息，没有字或者音素和音频对应的准确的时间戳信息，音素对齐技术是音频信号和文本信息，通过特定的算法得到音频和音素在时间轴上对齐的技术。
[0003]现有技术中的音素对齐方法如下，定义音素集合，接着进行语音样本数据采集和音素位置信息的标定，然后提取语音的声学特征，以及将语音转文本并参照音素集合进行音素拆分，再然后，训练每类音素的概率模型；再采用概率模型对声学特征进行处理，并将处理之后的音素位置信息映射得到音素的起始和终止位置。
[0004]专利技术人在实现本专利技术的过程中，发现上述现有技术可能存在以下不足，由于在音素对齐过程中，只是考虑训练概率模型，将声学特征转化为音素的概率值，会出现音素划分不准确，以及概率计算不准确问题，从而导致对齐之后的音素中存在较大误差，所以音素对齐...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法，其特征在于，包括：基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素；基于所述目标音素确定所述待对齐语音中各帧语音对应的音素，得到所述待对齐语音对应的初步对齐后音素序列；基于所述初步对齐后音素序列生成合成语音，并基于所述合成语音和所述待对齐语音对所述初步对齐后音素序列进行校准，得到校准后音素序列；将所述校准后音素序列作为目标音素序列，并基于所述目标音素序列中各个音素对应的语音帧在所述待对齐语音中的起始位置和终止位置，对所述目标音素序列和所述待对齐语音进行时间对齐。2.根据权利要求1所述的音频处理方法，其特征在于，所述基于预先获取到的待对齐语音对应的文本信息以及预设的音素集合确定所述待对齐语音中包括的目标音素，包括：基于预先获取到的文字与拼音对照表将获取到的待对齐语音对应的文本信息中的文字转换成对应的拼音；基于预设的音素集合对所述拼音进行拆分，得到所述待对齐语音中包括的第一目标音素；将所述音素集合中的第二目标音素和所述第一目标音素作为所述待对齐语音中包括的目标音素，其中，所述第二目标音素表示短停顿或静音音频对应的音素。3.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述初步对齐后音素序列生成合成语音之前，还包括：获取FastSpeech模型，并将所述FastSpeech模型中的时长估计模块删除；对删除所述时长估计模块后的FastSpeech模型进行训练，得到语音合成模型，以便利用所述语音合成模型对所述初步对齐后音素序列进行处理，得到所述合成语音。4.根据权利要求1所述的音频处理方法，其特征在于，所述将所述校准后音素序列作为目标音素序列之前，还包括：确定所述校准后音素序列与所述初步对齐后音素序列之间的偏差；判断所述偏差是否小于预设偏差阈值；如果所述偏差小于预设偏差阈值，则将所述校准后音素序列作为目标音素序列。5.根据权利要求4所述的音频处理方法，其特征在于，所述判断所述偏差是否小于预设偏差阈值之后，还包括：如果所述偏差不小于预设偏差阈值，则将所述校准后音素序列作为所述初步对齐后音素序列，并重新执行所述基于所述初步对齐...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人