语音降噪方法、装置及设备制造方法及图纸

技术编号:30098419 阅读:12 留言:0更新日期:2021-09-18 09:02
本发明专利技术涉及一种语音降噪方法、装置及设备,其中方法包括:采集连续音频信号,并将音频信号分割为多个语音音素;将语音音素与音素模型库的音素模型进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型;对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出。与现有技术相比,本发明专利技术采用预先建立针对个人的语音音素模型库,然后将采集的到音频分割为多个语音音素,最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放,可以在强度相似的更加复杂的语音环境中实现个人语音提取,达到降噪的效果。达到降噪的效果。达到降噪的效果。

【技术实现步骤摘要】
语音降噪方法、装置及设备


[0001]本专利技术涉及语音降噪领域,尤其是涉及一种语音降噪方法、装置及设备。

技术介绍

[0002]随着人工智能技术的发展,人与设备的交互变得越来越频繁,可穿戴设备由于跟使用者能够随时交互,也吸引了大量的人工智能技术在该领域寻找应用场景。
[0003]为了解放人的双手和双眼,语音成为人机交互或人人交互时非常重要的一种输入方式,然而在实际应用中,许多环境充满了噪声,对采集的语音信号造成干扰,对语音检测和降噪带来了很大的挑战,即使是人们在通过网络进行语音交谈时,背景噪声也可能导致对方难以听清自己说话的声音。
[0004]目前市场上有大量具有降噪功能的麦克风,主要手段是设置灵敏度阈值,屏蔽较低能量的声音;利用声源特定位置,做方向性选择;或者采用滤波手段,滤掉过高频和过低频的声音,留下语音频率范围的声音等。还有一些语音降噪的算法,如LMS自适应滤波器、自适应陷波器,基本谱减法,维纳滤波等多种手段,针对语音特点进行降噪。但在信噪比很低的环境,甚至是在多人对话环境下,由于从频域上看,不同的人的语音之间的差异不大,很难选择性过滤,这些降噪手段就很难取得较佳的效果。

技术实现思路

[0005]本专利技术的目的就是为了提供一种语音降噪方法、装置及设备。
[0006]本专利技术的目的可以通过以下技术方案来实现:
[0007]一种语音降噪方法,包括:
[0008]采集连续音频信号,并将音频信号分割为多个语音音素;
[0009]将语音音素与音素模型库的音素模型进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型;
[0010]对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出,采用预先建立针对个人的语音音素模型库,然后将采集的到音频分割为多个语音音素,最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放,可以在强度相似的更加复杂的语音环境中实现对个人的语音提取,达到降噪的效果。
[0011]一种语音降噪方法,包括:
[0012]采集连续音频信号,并将音频信号分割为多个语音音素;
[0013]将目标语音音素按时序在先的部分与音素模型库的音素模型的相同长度的部分进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型;
[0014]对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出;
[0015]基于输出音素模型预测目标语音音素的后续部分,并与采集到的目标语音音素进行比对,若差异过大,则重新将采集到的目标语音音素与音素模型库的音素模型的相同长度的部分进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型。
[0016]所述音素模型为依据安静环境下采集的个人语音音素建立。
[0017]所述方法还包括:
[0018]获取参考音频信号;
[0019]所述将音频信号分割为多个语音音素,具体为:根据参考音频信号将采集到的连续音频信号分割为多个语音音素。
[0020]所述参考音频信号为骨传导震动信号。
[0021]所述参考音频信号为脑电信号或咽喉处的震动信号。
[0022]所述方法还包括:
[0023]将采集到的语音音素和输出音素模型进行比对,若采集到的语音音素的背景噪声更小、更清晰或更完整,则用采集到的语音音素替换输出音素模型。
[0024]一种语音降噪装置,包括:
[0025]模型库存储器,被配置存储音素模型库;
[0026]程序存储器,被配置为存储降噪程序;
[0027]处理器,别配置为执行所述降噪程序时实现如上述的方法。
[0028]一种语音降噪设备,包括:
[0029]第一音频信号采集装置,被配置为采集音频信号;
[0030]参考音频信号采集装置,被配置为采集参考音频;
[0031]如上述的语音降噪装置,所述语音降噪装置与第一音频信号采集装置和参考音频信号采集装置连接。
[0032]所述参考音频信号采集装置为骨传导振动传感器。
[0033]与现有技术相比,本专利技术具有以下有益效果:
[0034]1)采用预先建立针对个人的语音音素模型库,然后将采集的到音频分割为多个语音音素,最后根据采集到的语音音素对标准语音音素模型进行波形修正后播放,可以在强度相似的更加复杂的语音环境中提取出针对个人的语音提取,达到降噪的效果。
[0035]2)在音素分割过程中增加参考音频信号,可以有效提高音素的拆分效果,进一步提高响应的准确率和及时性。
[0036]3)在一段音素采集完毕后进行匹配,可以提高准确度。
[0037]4)将采集的一部分音素进行匹配,可以提高降噪速度。
[0038]5)采用骨传导震动信号作为参考信号,配合骨传导耳机,成本低,容易产业化。
附图说明
[0039]图1为本专利技术实施例降噪方法的原理示意图;
[0040]图2为引入参考音频信号的降噪方法的原理示意图;
[0041]图3为利用骨传导震动信号的降噪设备的原理示意图。
具体实施方式
[0042]下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。
[0043]本申请的一种实施方式提供了一种算法实现语音降噪,实现原理具体如图1所示:
[0044]1、首先在安静环境下采集的个人语音音素,并基于此建立个人的音素模型;
[0045]2、然后将采集的连续音频信号分割为语音音素,以语音音素为单位进行处理,具体为与音素模型进行匹配,将最接近的音素模型作为输出音素模型;
[0046]3、输出环节对音素模型进行波形修正,从而实现仿真采集得到的语音,具体的,是将输出音素模型按照当前采样所得语音音素的响度变化和持续长度进行调整,以使得输出更接近当前使用者发出的声音。
[0047]具体的,本申请另一实施方式提供了一种智能语音降噪芯片,该智能语音降噪芯片包含以下内容:
[0048]1、芯片将采集的连续音频信号分割为语音音素,以语音音素为单位进行处理。
[0049]2、芯片内具有非易失的音素模型库存储,语音输出为按照选择算法从音素模型库中选择音素,并经过一定的处理后拼接而成。
[0050]3、在一些实施例中,可支持高精度模式,当完成一段语音音素采集时,与音素模型库中的音素模型进行匹配,将匹配度最高的作为被选择的输出音素模型。
[0051]4、在一些实施例中,可支持高速度模式,在一段语音音素开始之初,将已采集部分与音素模型库中的音素模型的起始段进行匹配,将匹配度最高的作为被选择的输出音素模型,并立即开始输出,与此同时,利用音素模型对后续音频采集数据进行预测,预测结果与采集数据进行实时比对,当差异过大时即时更改音素模型的选择,以修正初期模型选择的错误。
[0052]5、在一些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音降噪方法,其特征在于,包括:采集连续音频信号,并将音频信号分割为多个语音音素;将语音音素与音素模型库的音素模型进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型;对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出。2.一种语音降噪方法,其特征在于,包括:采集连续音频信号,并将音频信号分割为多个语音音素;将目标语音音素按时序在先的部分与音素模型库的音素模型的相同长度的部分进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型;对输出因素模型按照采集所得音素的响度变化和持续长度进行波形修正后输出;基于输出音素模型预测目标语音音素的后续部分,并与采集到的目标语音音素进行比对,若差异过大,则重新将采集到的目标语音音素与音素模型库的音素模型的相同长度的部分进行匹配,将匹配度最高的音素模型作为被选择的输出音素模型。3.根据权利要求1或2所述的一种语音降噪方法,其特征在于,所述音素模型为依据安静环境下采集的个人语音音素建立。4.根据权利要求1或2所述的一种语音降噪方法,其特征在于,所述方法还包括:获取参考音频信号;所述将音频信号分割为多个语音音素,具体为:...

【专利技术属性】
技术研发人员:梁龙飞陈小刚钱星宇
申请(专利权)人:上海新氦类脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1