用于音频信号生成的系统和方法技术方案

技术编号:27882693 阅读:16 留言:0更新日期:2021-03-31 01:28
本申请涉及用于音频信号生成的系统和方法。该方法可以包括获取由骨传导传感器采集的第一音频数据;获取由气传导传感器采集的第二音频数据,第一音频数据和第二音频数据代表用户的语音,所述第一音频数据和第二音频数据由不同的频率成分组成;该方法也可以包括基于第一音频数据和第二音频数据生成第三音频数据,其中,第三音频数据中高于某一频率点的频率成分相对于第一音频数据中高于该频率点的频率成分增加。所述方法还可以包括基于第三音频数据,确定表示用户语音的目标音频数据,所述目标音频数据具有比第一音频数据和第二音频数据更高的保真度。

【技术实现步骤摘要】
用于音频信号生成的系统和方法
本申请一般涉及信号处理领域,具体地,涉及用于基于骨导音频信号和气导音频信号生成音频信号的系统和方法。
技术介绍
随着电子设备的广泛使用,人们之间的通信变得越来越方便。当使用电子设备进行通信时,用户可以依靠麦克风在用户说话时采集语音信号。由麦克风采集的语音信号可以表示用户的语音。然而,由于,例如麦克风本身的性能、噪声等,有时难以确保麦克风采集的语音信号是充分地可理解的(即,信号的保真度)。特别是在工厂、汽车、飞机、船舶、商场等公共场合中,不同的背景噪声严重影响了通信质量。因此,希望提供用于生成具有较少噪声和/或改进的保真度的音频信号的系统和方法。
技术实现思路
根据本申请的第一方面,提供一种用于音频信号生成的系统。该系统可以包括至少一个存储介质和至少一个与该至少一个存储介质通信的处理器。至少一种存储介质,包括指令。当执行所述指令时,所述系统执行一个或以上下述操作。系统可以获取由骨传导传感器采集的第一音频数据。系统可以获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成。系统基于所述第一音频数据和所述第二音频数据生成第三音频数据。所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。在一些实施例中,系统可以对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据。系统基于所述预处理后的第一音频数据和所述第二音频数据,生成所述第三音频数据。在一些实施例中,所述第一预处理操作包括归一化操作。在一些实施例中,系统可以获取训练后的机器学习模型。系统基于所述第一音频数据,使用所述训练后的机器学习模型确定所述预处理后的第一音频数据。所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。在一些实施例中,系统获取多组训练数据。所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据。系统使用所述多组训练数据训练初级机器学习模型。在所述初级机器学习模型的训练过程中,所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入,以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。在一些实施例中,用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。在一些实施例中,所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。在一些实施例中,系统可以获取滤波器,所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系。使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。在一些实施例中,系统可以对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据。系统可以基于所述第一音频数据和所述第二音频数据生成第三音频数据。在一些实施例中,所述第二预处理操作包括降噪操作。在一些实施例中,系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值。系统可以基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。在一些实施例中,系统可以确定与所述第二音频数据相关的噪声水平。系统可以基于与所述第二音频数据相关的噪声水平,确定所述一个或以上频率阈值中的至少一个。在一些实施例中,与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示。系统可以由以下操作确定所述第二音频数据的所述信噪比。系统可以使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量。在一些实施例中,与所述第二音频数据相关联的所述噪声水平越大,所述一个或以上频率阈值中的至少一个频率阈值越大。在一些实施例中,系统可以基于与所述第一音频数据相关联的频率响应曲线确定所述一个或以上频率阈值中的至少一个。在一些实施例中,系统可以基于所述频率点、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。在一些实施例中,系统可以确定所述第一音频数据的低频部分,所述低频部分包括低于所述一个或以上频率阈值中的某个频率阈值的频率成分。系统可以确定所述第二音频数据的高频部分,所述高频部分包括高于所述一个或以上频率阈值中的所述某个频率阈值的频率成分。系统可以拼接所述第一音频数据的所述低频部分和所述第二音频数据的所述高频部分以生成所述第三音频数据。在一些实施例中,系统可以确定多个频率范围。系统可以分别确定位于所述多个频率范围的每个频率范围内的所述第一音频数据的一部分和所述第二音频数据的一部分的第一权重和第二权重。系统可以通过分别使用所述第一权重和所述第二权重,对位于所述多个频率范围中的每个频率范围内的所述第一音频数据的所述部分和所述第二音频数据的所述部分进行加权以确定所述第三音频数据。在一些实施例中,系统可以至少部分地基于所述频率点,分别地确定所述第一音频数据的第一部分和所述第一音频数据的第二部分的第一权重和第二权重。所述第一音频数据的所述第一部分包括低于所述频率点的频率成分,以及所述第一音频数据的所述第二部分包括高于所述频率点的频率成分。系统可以至少部分地基于所述频率点,分别地确定所述第二音频数据的第三部分和所述第二音频数据的第四部分的第三权重和第四权重。所述第二音频数据的所述第三部分包括低于所述频率点的频率成分以及所述第二音频数据的所述第四部分包括高于所述频率点的频率成分。系统可以通过使用所述第一权重、所述第二权重、所述第三权重、所述第四权重对所述第一音频数据的所述第一部分、所述第一音频数据的所述第二部分、所述第二音频数据的所述第三部分和所述第二音频数据的所述第四部分进行加权以确定所述第三音频数据。在一些实施例中,系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第一音频数据的第一权重。系统可以至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述第二音频数据的第二权重。系统可以通过所述第一权重和所述第二权重对所述第一音频数据和所述第二音频数据的加权以确定所述第三音频数据。在一些实施例中,系统可以对所述第三音频数据执行后处理操作以获取目标音频数据,所述目标音频数据代表所述用户的所述语音,所述目标音频数据比所述第一音频数据和所述第二音频数据具有更高的保真度。在一些实施例中,系统可以所述后处理操作包括降噪操作。根据本申请的第二方面,提供了一种音频信号生成的方法。该方法可以在至少一个计算设备上实现,每个计算设备可以包括至少一个处理器和存储设备。该方法可以包括以下操作中的一个或多个。该方法可以包括用于获取由骨传导传感器采集的第一音频数据和由气传导传感器采集的第二音频数据,本文档来自技高网...

【技术保护点】
1.一种音频信号生成方法,包括:/n获取由骨传导传感器采集的第一音频数据;/n获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及/n基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。/n

【技术特征摘要】
1.一种音频信号生成方法,包括:
获取由骨传导传感器采集的第一音频数据;
获取由气传导传感器采集的第二音频数据,所述第一音频数据和所述第二音频数据表示用户的语音,所述第一音频数据和所述第二音频数据分别由不同的频率成分组成;以及
基于所述第一音频数据和所述第二音频数据生成第三音频数据,其中,所述第三音频数据中高于第一频率点的频率成分相对于所述第一音频数据中高于所述第一频率点的频率成分增加。


2.根据权利要求1所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据;以及
基于所述预处理后的第一音频数据和所述第二音频数据,生成所述第三音频数据。


3.根据权利要求2所述的方法,其特征在于,所述第一预处理操作包括归一化操作。


4.根据权利要求2或3所述的方法,其特征在于,对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据,包括:
获取训练后的机器学习模型;
基于所述第一音频数据,使用所述训练后的机器学习模型确定所述预处理后的第一音频数据,其中,所述预处理后的第一音频数据中高于第二频率点的频率成分相对于所述第一音频数据中高于所述第二频率点的频率成分增加。


5.根据权利要求4所述的方法,其特征在于,所述训练后的机器学习模型由以下过程确定,所述过程包括:
获取多组训练数据,所述多组训练数据中的每组训练数据包括代表语音样本的骨导音频数据和气导音频数据;以及
使用所述多组训练数据训练初级机器学习模型,在所述初级机器学习模型的训练过程中,所述多组训练数据中的每组训练数据中的所述骨导音频数据作为所述初级机器学习模型的输入,以及与所述骨导音频数据对应的所述气导音频数据为所述初级机器学习模型的期望输出。


6.根据权利要求4或5所述的方法,其特征在于,用于采集所述至少两个训练数据组中每组训练数据的所述骨导音频数据的特定骨传导传感器所在的身体部位与用于采集所述第一音频数据的所述骨传导传感器所在的所述用户的身体部位相同。


7.根据权利要求4至6任一项所述的方法,其特征在于,所述初级机器学习模型基于递归神经网络模型或长短期记忆网络构建。


8.根据权利要求2或3所述的方法,其特征在于,对所述第一音频数据执行第一预处理操作以获取预处理后的第一音频数据,包括;
获取滤波器,所述滤波器用于提供特定气导音频数据与所述特定气导音频数据对应的特定骨导音频数据之间的关系;以及
使用所述滤波器处理所述第一音频数据以确定所述预处理后的第一音频数据。


9.根据权利要求1至8任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
对所述第二音频数据执行第二预处理操作以获取预处理后的第二音频数据;以及
基于所述第一音频数据和所述预处理后的第二音频数据,生成所述第三音频数据。


10.根据权利要求9所述的方法,其特征在于,所述第二预处理操作包括降噪操作。


11.根据权利要求1至10任一项所述的方法,其特征在于,基于所述第一音频数据和所述第二音频数据生成第三音频数据,包括:
至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个确定一个或以上频率阈值;以及
基于所述一个或以上频率阈值、所述第一音频数据以及所述第二音频数据生成所述第三音频数据。


12.根据权利要求11所述的方法,其特征在于,至少部分地基于所述第一音频数据或所述第二音频数据中的至少一个,确定所述一个或以上频率阈值,包括:
确定与所述第二音频数据相关的噪声水平;以及
基于与所述第二音频数据相关的噪声水平,确定所述一个或以上频率阈值中的至少一个。


13.根据权利要求12所述的方法,其特征在于,与所述第二音频数据相关联的所述噪声水平由所述第二音频数据的信噪比表示,并且所述第二音频数据的所述信噪比由以下操作确定,包括:
使用所述骨传导传感器和所述气传导传感器确定所述第二音频数据中的噪声的能量;
基于所述第二音频数据中的所述噪声的能量,确定所述第二音频数据中的纯音频数据的能量;以及
基于所述第二音频数据中所述噪声的能量和所述第二音频数据中的所述纯音频数据的能量,确定所述信噪比。


14.根据权利要求12或13所述的方法,其特征在于,与所述第二音频数据相关联的所述噪声水平越大,所述一个或以上频率阈值中...

【专利技术属性】
技术研发人员:周美林廖风云齐心
申请(专利权)人:深圳市韶音科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1