一种低质数据的自动化合成方法、装置及电子设备制造方法及图纸

技术编号：30534048 阅读：10 留言：0更新日期：2021-10-30 13:08

本发明专利技术提供了一种低质数据的自动化合成方法、装置及电子设备，涉及语音技术领域，包括获取低质音频数据；对所述低质音频数据进行噪音分离，得到发音数据和噪音数据；基于所述噪音数据去除所述发音数据的背景噪音，得到去除背景噪音的发音数据；对所述发音数据进行语音识别，得到所述发音数据的文本信息；输入所述文本信息至预先训练的声学模型，得到合成的音频数据。本申请具有在保证全自动化的情形下对收集到的低质量音频数据进行语音合成任务的功能。功能。功能。

全部详细技术资料下载

【技术实现步骤摘要】
一种低质数据的自动化合成方法、装置及电子设备

[0001]本专利技术涉及语音
，尤其涉及一种低质数据的自动化合成方法、装置及电子设备。

技术介绍

[0002]自动化低质数据语音合成系统是指，在保证全自动化的情形下，能对收集到的低质量音频数据进行语音合成任务的系统。
[0003]低质音频数据质量较低，主要有三个问题：噪音；无语音标注文本(即这段音频的文字内容)；混有大量无关音色音频。其中无语音标注文本的音频，通常需要由ASR系统对音频进行识别产出识别文本，但一般情况下ASR系统识别的准确率不会是100％，甚至会很低，造成合成系统的结果出现大量坏例。因此，通常情况下需要人工介入，人工标注出正确文本，然后再进行语音合成任务。
[0004]因此，提出一种低质数据的自动化合成方法、装置及电子设备。

技术实现思路

[0005]本说明书提供一种低质数据的自动化合成方法、装置及电子设备，可实现在保证全自动化的情形下对收集到的低质量音频数据进行语音合成任务的功能。
[0006]本申请提供的一种低质数据的自动化合成方法采用如下的技术方案，包括：
[0007]获取低质音频数据；
[0008]对所述低质音频数据进行噪音分离，得到发音数据和噪音数据；
[0009]基于所述噪音数据去除所述发音数据的背景噪音，得到去除背景噪音的发音数据；
[0010]对所述发音数据进行语音识别，得到所述发音数据的文本信息；
[0011]输入所述文本信息至预先训练的声学模型，得到...

【技术保护点】

【技术特征摘要】
1.一种低质数据的自动化合成方法，其特征在于，包括：获取低质音频数据；对所述低质音频数据进行噪音分离，得到发音数据和噪音数据；基于所述噪音数据去除所述发音数据的背景噪音，得到去除背景噪音的发音数据；对所述发音数据进行语音识别，得到所述发音数据的文本信息；输入所述文本信息至预先训练的声学模型，得到合成的音频数据。2.如权利要求1所述的方法，其特征在于，所述声学模型的训练方法包括：构建声学模型，并获取多个样本低质音频数据；对所述样本低质音频数据分别进行噪音分离，得到相应的样本发音数据和样本噪音数据；基于所述样本噪音数据去除所述样本发音数据的背景噪音，得到去除背景噪音的样本发音数据；对所述样本发音数据分别进行语音识别，得到所述样本发音数据的样本文本信息；根据所述样本发音数据和所述样本文本信息，对所述声学模型进行训练，得到训练完成的声学模型。3.如权利要求1
‑
2所述的方法，其特征在于，所述根据所述样本发音数据和所述样本文本信息，对所述声学模型进行训练，包括：获取各个所述样本发音数据的声纹特征矢量；根据所述声纹特征矢量对所述样本发音数据进行聚类；选取聚类结果中数量最多的一类的所述样本发音数据和相对应的样本文本信息，对所述声学模型进行训练。4.如权利要求1
‑
3所述的方法，其特征在于，所述选取聚类结果中数量最多的一类的所述样本发音数据和相对应的样本文本信息，对所述声学模型进行训练，包括：获取聚类结果中数量最多的一类的所述样本发音数据作为第一数据；获取所述第一数据的信噪比，和所述第一数据对应的文本数据的置信度量；根据所述信噪比和所述置信度量对所述第一数据进行筛选，得到第二数据；通过所述第二数据和所述第二数据对应的文本信息，对所述声学模型进行训练。5.如权利要求1
‑
4所述的方法，其特征在于，所述根据所述信噪比和所述置信度量对所述第一数据进行筛选，得到第二数据，包括：基于所述置信度量对所述第一数据进行升序/降序排名，得到与所述置信度量的升序/降序排名结果成正比的第一分数；基于所述信噪比对所述第一数据进行升序/降序排名，得到与所述信噪比的升序/降序排名结果成正比的第二分数；结合所述第一分数和所述...

【专利技术属性】
技术研发人员：马达标，李晴覃，
申请(专利权)人：上海淇玥信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人