特定词语音的处理方法及装置制造方法及图纸

技术编号：25483451 阅读：47 留言：0更新日期：2020-09-01 23:03

本发明专利技术是关于特定词语音的处理方法及装置。该方法包括：获取带噪声的待训练语音；提取所述待训练语音的第一特征；将所述第一特征输入至待训练的U‑NET模型中，以得到目标U‑NET模型；获取待测试语音，并提取所述待测试语音的第二特征；将所述第二特征输入至所述目标U‑NET模型，以判断所述待测试语音中是否存在特定词语音，并得到所述待测试语音的降噪语音。通过本发明专利技术的技术方案，可充分有效地提高降噪质量以及带噪语音中关键词的检测效率。

全部详细技术资料下载

【技术实现步骤摘要】
特定词语音的处理方法及装置
本专利技术涉及语音处理
，尤其涉及特定词语音的处理方法及装置。
技术介绍
目前，市面上出现了大量的用于智能家居、移动自动设备和基于语音交互的装置，比如一些智能音箱，AmazonAlexa，AppleSiri等，而这些装置在语音交互前都需要一个特定词检测系统进行唤醒，但是这个特定词检测系统一般只能在相对安静的场景中才有较好的检测效果，噪声场景下的性能不好，即现有技术的特定词检测方法只对在相对安静的环境中录制的语音才有较好的检测效果，在噪声场景下性能会呈现悬崖式下，从而使得带噪语音中关键词检测不准确。
技术实现思路
本专利技术实施例提供了特定词语音的处理方法及装置。所述技术方案如下：根据本专利技术实施例的第一方面，提供一种特定词语音的处理方法，包括：获取带噪声的待训练语音；提取所述待训练语音的第一特征；将所述第一特征输入至待训练的U-NET模型中，以得到目标U-NET模型；获取待测试语音，并提取所述待测试语音的第二特征；将所述第...

【技术保护点】
1.一种特定词语音的处理方法，其特征在于，包括：/n获取带噪声的待训练语音；/n提取所述待训练语音的第一特征；/n将所述第一特征输入至待训练的U-NET模型中，以得到目标U-NET模型；/n获取待测试语音，并提取所述待测试语音的第二特征；/n将所述第二特征输入至所述目标U-NET模型，以判断所述待测试语音中是否存在特定词语音，并得到所述待测试语音的降噪语音。/n

【技术特征摘要】
1.一种特定词语音的处理方法，其特征在于，包括：
获取带噪声的待训练语音；
提取所述待训练语音的第一特征；
将所述第一特征输入至待训练的U-NET模型中，以得到目标U-NET模型；
获取待测试语音，并提取所述待测试语音的第二特征；
将所述第二特征输入至所述目标U-NET模型，以判断所述待测试语音中是否存在特定词语音，并得到所述待测试语音的降噪语音。

2.根据权利要求1所述的方法，其特征在于，
所述将所述第一特征输入至待训练的U-NET模型中，以得到目标U-NET模型，包括：
将所述第一特征输入至所述待训练的U-NET模型中，以得到所述待训练语音对应的第一估计掩蔽值以及所述待训练语音中是否包括预设语音的估计结果；所述第一特征为所述待训练语音在频域空间的幅值；
根据所述第一估计掩蔽值和所述估计结果，对所述待训练的U-NET模型进行训练，以得到所述目标U-NET模型。

3.根据权利要求2所述的方法，其特征在于，
所述根据所述第一估计掩蔽值和所述估计结果，对所述待训练的U-NET模型进行训练，以得到所述目标U-NET模型，包括：
获取所述待训练语音对应的真实掩蔽值和所述待训练语音中是否包括预设语音的真实判断结果；
根据所述第一估计掩蔽值、所述估计结果、所述真实掩蔽值和所述真实判断结果，计算模型损失函数；
根据所述模型损失函数，对所述待训练的U-NET模型进行调整，以得到所述目标U-NET模型。

4.根据权利要求3所述的方法，其特征在于，
根据所述第一估计掩蔽值、所述估计结果、所述真实掩蔽值和所述真实判断结果，计算模型损失函数，包括：
通过以下第一预设公式计算所述模型损失函数Loss：

其中，和分别是所述第一估计掩蔽值、所述估计结果，
PSM、LABEL分别是所述真实掩蔽值、所述真实判断结果、MAE表示平均绝对误差；
真实掩蔽值PSM是通过第二预设公式计算获得的，所述第二预设公式为：

|pure|表示所述待训练语音对应的纯净语音在频域空间的幅值，|mixture|表示所述待训练语音在频域空间的幅值，θpure表示所述待训练语音对应的纯净语音在频域空间的相位，θmixture表示所述待训练语音在频域空间的相位。

5.根据权利要求1至4中任一项所述的方法，其特征在于，
所述将所述第二特征输入至所述目标U-NET模型，以判断所述待测试语音中是否存在特定词语音，并得到所述待测试语音的降噪语音，包括：
将所述第二特征输入至所述目标U-NET模型中，以判断所述待测试语音中是否存在特定词语音以及所述待测试语音对应的第二估计掩蔽值；所述第二特征为所述待测试语音在频域空间的幅值；
将所述待测试语音通过短时傅里叶变换，以得到所述待测试语音的频谱；
...

【专利技术属性】
技术研发人员：高飞，关海欣，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人