语音增强方法、装置、存储介质及电子设备制造方法及图纸

技术编号：26306137 阅读：22 留言：0更新日期：2020-11-10 20:04

本公开涉及一种语音增强方法、装置、存储介质和电子设备，所述方法包括：获取待处理的耳语数据；通过语音增强模型对所述耳语数据进行处理，以得到所述耳语数据对应的声学特征信息，其中，所述语音增强模型包括编码子模型和解码子模型，所述编码子模型用于对所述耳语进行编码，获得目标编码信息，所述解码子模型通过逐步单调注意力机制对所述目标编码信息进行解码，获得所述声学特征信息；根据所述声学特征信息进行语音合成，以得到与所述耳语数据对应的音频信息。由此，可以对耳语数据进行增强，从而可以增加该耳语数据的可懂度，便于用户之间交互和机器识别。并且，可以降低数据处理量，提高语音增强方法的处理效率，进一步提升用户使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音增强方法、装置、存储介质及电子设备
本公开涉及语音合成技术，具体地，涉及一种语音增强方法、装置、存储介质和电子设备。
技术介绍
在禁止大声喧哗的场景下，用户正常语音对话通常会带来一些不方便，因此部分用户会选择采用耳语进行交互。而在该过程中获得的语音数据难以被机器准确识别。同时声带受损的用户发音和耳语音也比较接近，在交互过程中该发音数据的可懂度较低。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。第一方面，本公开提供一种语音增强方法，所述方法包括：获取待处理的耳语数据；通过语音增强模型对所述耳语数据进行处理，以得到所述耳语数据对应的声学特征信息，其中，所述语音增强模型包括编码子模型和解码子模型，所述编码子模型用于对所述耳语进行编码，获得目标编码信息，所述解码子模型通过逐步单调注意力机制对所述目标编码信息进行解码，获得所述声学特征信息；根据所述声学特征信息进行语音合成，以得到与所述耳语数据对应的音频信息。第二方面，本公开提供一种语音增强装置，所述装置包括：第一获取模块，用于获取待处理的耳语数据；处理模块，用于通过语音增强模型对所述耳语数据进行处理，以得到所述耳语数据对应的声学特征信息，其中，所述语音增强模型包括编码子模型和解码子模型，所述编码子模型用于对所述耳语进行编...

【技术保护点】
1.一种语音增强方法，其特征在于，所述方法包括：/n获取待处理的耳语数据；/n通过语音增强模型对所述耳语数据进行处理，以得到所述耳语数据对应的声学特征信息，其中，所述语音增强模型包括编码子模型和解码子模型，所述编码子模型用于对所述耳语进行编码，获得目标编码信息，所述解码子模型通过逐步单调注意力机制对所述目标编码信息进行解码，获得所述声学特征信息；/n根据所述声学特征信息进行语音合成，以得到与所述耳语数据对应的音频信息。/n

【技术特征摘要】
1.一种语音增强方法，其特征在于，所述方法包括：
获取待处理的耳语数据；
通过语音增强模型对所述耳语数据进行处理，以得到所述耳语数据对应的声学特征信息，其中，所述语音增强模型包括编码子模型和解码子模型，所述编码子模型用于对所述耳语进行编码，获得目标编码信息，所述解码子模型通过逐步单调注意力机制对所述目标编码信息进行解码，获得所述声学特征信息；
根据所述声学特征信息进行语音合成，以得到与所述耳语数据对应的音频信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取所述耳语数据对应的演讲者基频信息；
所述根据所述声学特征信息进行语音合成，以得到与所述耳语数据对应的音频信息，包括：
根据所述声学特征信息和所述演讲者基频信息进行语音合成，以得到与所述耳语数据对应的音频信息。

3.根据权利要求2所述的方法，其特征在于，所述获取所述耳语数据对应的演讲者基频信息，包括：
通过演讲者识别模型对所述耳语数据进行处理，以获得说出所述耳语数据的演讲者的特征信息；
根据所述演讲者的特征信息，确定基频信息数据集中是否存在与所述演讲者对应的基频信息；
若不存在与所述演讲者对应的基频信息，则输出提示信息，其中，所述提示信息用于提示用户录制音频；
在接收到用户录制的音频数据的情况下，从所述音频数据中提取基频信息，并根据所述基频信息确定所述演讲者基频信息。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：
将确定出的所述演讲者基频信息与所述演讲者的特征信息关联存储至所述基频信息数据集。

5.根据权利要求2所述的方法，其特征在于，所述获取所述耳语数据对应的演讲者基频信息，包括：
通过演讲者识别模型对所述耳语数据进行处理，以获得说出所述耳语数据的演讲者的特征信息；
根据所述演讲者的特征信息预测所述耳语数据对应的基频信息，并根据所述基频信息确定所述演...

【专利技术属性】
技术研发人员：殷翔，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人