用于音频信号生成的系统和方法技术方案

技术编号：27882693 阅读：16 留言：0更新日期：2021-03-31 01:28

本申请涉及用于音频信号生成的系统和方法。该方法可以包括获取由骨传导传感器采集的第一音频数据；获取由气传导传感器采集的第二音频数据，第一音频数据和第二音频数据代表用户的语音，所述第一音频数据和第二音频数据由不同的频率成分组成；该方法也可以包括基于第一音频数据和第二音频数据生成第三音频数据，其中，第三音频数据中高于某一频率点的频率成分相对于第一音频数据中高于该频率点的频率成分增加。所述方法还可以包括基于第三音频数据，确定表示用户语音的目标音频数据，所述目标音频数据具有比第一音频数据和第二音频数据更高的保真度。

全部详细技术资料下载

【技术实现步骤摘要】
用于音频信号生成的系统和方法
本申请一般涉及信号处理领域，具体地，涉及用于基于骨导音频信号和气导音频信号生成音频信号的系统和方法。
技术介绍
随着电子设备的广泛使用，人们之间的通信变得越来越方便。当使用电子设备进行通信时，用户可以依靠麦克风在用户说话时采集语音信号。由麦克风采集的语音信号可以表示用户的语音。然而，由于，例如麦克风本身的性能、噪声等，有时难以确保麦克风采集的语音信号是充分地可理解的(即，信号的保真度)。特别是在工厂、汽车、飞机、船舶、商场等公共场合中，不同的背景噪声严重影响了通信质量。因此，希望提供用于生成具有较少噪声和/或改进的保真度的音频信号的系统和方法。
技术实现思路
根据本申请的第一方面，提供一种用于音频信号生成的系统。该系统可以包括至少一个存储介质和至少一个与该至少一个存储介质通信的处理器。至少一种存储介质，包括指令。当执行所述指令时，所述系统执行一个或以上下述操作。系统可以获取由骨传导传感器采集的第一音频数据。系统可以获取由气传导传感器采集的第二音频数据，所述第一音频数据和所述第二音频数据表示用户的语音，所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。系统基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。在一些实施例中，系统可以对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据。系统基于所述预处理后的第一音频数据和所述第二音频数据，生...

【技术保护点】
1.一种音频信号生成方法，包括：/n获取由骨传导传感器采集的第一音频数据；/n获取由气传导传感器采集的第二音频数据，所述第一音频数据和所述第二音频数据表示用户的语音，所述第一音频数据和所述第二音频数据分别由不同的频率成分组成；以及/n基于所述第一音频数据和所述第二音频数据生成第三音频数据，其中，所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。/n

【技术特征摘要】
1.一种音频信号生成方法，包括：
获取由骨传导传感器采集的第一音频数据；
获取由气传导传感器采集的第二音频数据，所述第一音频数据和所述第二音频数据表示用户的语音，所述第一音频数据和所述第二音频数据分别由不同的频率成分组成；以及
基于所述第一音频数据和所述第二音频数据生成第三音频数据，其中，所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。

2.根据权利要求1所述的方法，其特征在于，基于所述第一音频数据和所述第二音频数据生成第三音频数据，包括：
对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据；以及
基于所述预处理后的第一音频数据和所述第二音频数据，生成所述第三音频数据。

3.根据权利要求2所述的方法，其特征在于，所述第一预处理操作包括归一化操作。

4.根据权利要求2或3所述的方法，其特征在于，对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据，包括：
获取训练后的机器学习模型；
基于所述第一音频数据，使用所述训练后的机器学习模型确定所述预处理后的第一音频数据，其中，所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。

5.根据权利要求4所述的方法，其特征在于，所述训练后的机器学习模型由以下过程确定，所述过程包括：
获取多组训练数据，所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据；以及
使用所述多组训练数据训练初级机器学习模型，在所述初级机器学习模型的训练过程中，所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入，以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。

6.根据权利要求4或5所述的方法，其特征在于，用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。

7.根据权利要求4至6任一项所述的方法，其特征在于，所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。

8.根据权利要求2或3所述的方法，其特征在于，对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据，包括；
获取滤波器，所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系；以及
使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。

9.根据权利要求1至8任一项所述的方法，其特征在于，基于所述第一音频数据和所述第二音频数据生成第三音频数据，包括：
对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据；以及
基于所述第一音频数据和所述预处理后的第二音频数据，生成所述第三音频数据。

10.根据权利要求9所述的方法，其特征在于，所述第二预处理操作包括降噪操作。

11.根据权利要求1至10任一项所述的方法，其特征在于，基于所述第一音频数据和所述第二音频数据生成第三音频数据，包括：
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值；以及
基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。

12.根据权利要求11所述的方法，其特征在于，至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个，确定所述一个或以上频率阈值，包括：
确定与所述第二音频数据相关的噪声水平；以及
基于与所述第二音频数据相关的噪声水平，确定所述一个或以上频率阈值中的至少一个。

13.根据权利要求12所述的方法，其特征在于，与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示，并且所述第二音频数据的所述信噪比由以下操作确定，包括：
使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量；
基于所述第二音频数据中的所述噪声的能量，确定所述第二音频数据中的纯音频数据的能量；以及
基于所述第二音频数据中所述噪声的能量和所述第二音频数据中的所述纯音频数据的能量，确定所述信噪比。

14.根据权利要求12或13所述的方法，其特征在于，与所述第二音频数据相关联的所述噪声水平越大，所述一个或以上频率阈值中...

【专利技术属性】
技术研发人员：周美林，廖风云，齐心，
申请(专利权)人：深圳市韶音科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人