一种音频处理方法、装置、智能设备及存储介质制造方法及图纸

技术编号:30403759 阅读:54 留言:0更新日期:2021-10-20 10:57
本申请实施例提供一种音频处理方法、装置、设备及计算机可读存储介质。其中方法可包括:获取待处理的音频信号,并对待处理的音频信号进行处理,得到待处理的音频信号的N维第一特征参数和M维第二特征参数,调用噪声优化模型对N维第一特征参数和M维第二特征参数进行处理,得到P维增益参数,对待处理的音频信号和P维增益参数进行增益计算处理,得到处理后的音频信号。该方法能够在终端或者云服务器等设备中实现,通过增益参数对待处理的音频信号进行增益计算处理,可以较为有效地对待处理的音频信号进行优化修正,降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响,从而提高语音交互的质量。质量。质量。

【技术实现步骤摘要】
一种音频处理方法、装置、智能设备及存储介质


[0001]本专利技术涉及计算机
,具体涉及一种音频处理方法、装置、智能设备及计算机可读存储介质。

技术介绍

[0002]随着通信技术的不断发展,用户能够随时随地的进行语音通信。由于通信地点不固定,在通信时周围环境可能存在噪声,使得传输的音频信号中携带了部分非必要的信号。
[0003]在一个场景中,该非必要信号主要是指噪声信号,该噪声信号包括回声信号,以及其他物体发出的声音信号(如汽车鸣笛)。这些噪声信号会给通信过程中语音信号带来不利影响,比如语音信号接收方的用户未能听清语音信号发送方的用户的语音内容,降低了语音交互的质量。

技术实现思路

[0004]本申请实施例提供了一种音频处理方法、装置、设备及计算机可读存储介质,可在一定程度上提高音频信号的质量。
[0005]一方面,本申请实施例提供了一种音频处理方法,该方法包括:
[0006]获取待处理的音频信号,并对所述待处理的音频信号进行处理,得到所述待处理的音频信号的N维第一特征参数和M维第二特征参数,M,N为正整数;
[0007]调用噪声优化模型对所述N维第一特征参数和所述M维第二特征参数进行处理,得到P维增益参数,P为正整数;
[0008]对所述待处理的音频信号和所述P维增益参数进行增益计算处理,得到处理后的音频信号;
[0009]其中,所述噪声优化模型包括R层门控循环单元网络和激活层,所述激活层用于对第R层门控循环单元网络的输出结果进行激活,R为大于等于2的正整数。
[0010]另一方面,本申请实施例提供了一种音频处理装置,该处理装置包括:
[0011]获取单元,用于获取待处理的音频信号,并对所述待处理的音频信号进行处理,得到所述待处理的音频信号的N维第一特征参数和M维第二特征参数,M,N为正整数;
[0012]处理单元,用于调用噪声优化模型对所述N维第一特征参数和所述M维第二特征参数进行处理,得到P维增益参数,P为正整数;对所述待处理的音频信号和所述P维增益参数进行增益计算处理,得到处理后的音频信号;
[0013]其中,所述噪声优化模型包括三层门控循环单元网络和一层激活层,所述激活层用于对第三层门控循环单元网络的输出结果进行激活。
[0014]相应地,本申请实施例还提供了一种音频处理设备,包括处理器、存储器和通信接口,所述处理器、所述存储器和所述通信接口相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的音频处理方法。
[0015]相应地,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有一条或多条指令,一条或多条指令适于由处理器加载并执行上述的音频处理方法。
[0016]相应地,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的音频处理方法。
[0017]本申请实施例中,通过第一特征参数和第二特征参数来表征获取的待处理的音频信号,并调用噪声优化模型对第一特征参数和第二特征参数进行处理,得到待处理音频信号的增益参数,通过增益参数对待处理的音频信号进行增益计算处理,可以较为有效地对待处理的音频信号进行优化修正,降低甚至消除该待处理的音频信号中关于噪声音频信号的特征对待处理的音频信号的不利影响,从而提高语音交互的质量。
附图说明
[0018]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1a为本申请实施例提供的一种音频处理的场景架构图;
[0020]图1b为本申请实施例提供的一种音频处理流程图;
[0021]图2为本申请实施例提供的一种音频处理方法的流程图;
[0022]图3a为本申请实施例提供的另一种音频处理方法的流程图;
[0023]图3b为本申请实施例提供的一种噪声优化模型的训练流程图;
[0024]图4a为本申请实施例提供的一种调用噪声优化模型对待处理的音频信号的特征参数进行处理的流程图;
[0025]图4b为本申请实施例提供的一种会议会话界面图;
[0026]图4c为本申请实施例提供的一种语音会话界面图;
[0027]图4d为本申请实施例提供的一种待处理的音频信号的波形示意图;
[0028]图4e为本申请实施例提供的一种处理后的音频信号的波形示意图;
[0029]图5为本申请实施例提供的一种音频处理装置的结构示意图;
[0030]图6为本申请实施例提供的一种智能设备的结构示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。
[0032]本申请实施例涉及人工智能(Artificial Intelligence,AI)及机器学习(Machine Learning,ML),通过将AI和ML相结合能够挖掘和分析音频信号中的特征,使得智能设备能够更加精确的对音频信号进行识别处理,从中确定出音频信号中的噪声信号的特征,以便于减轻甚至消除这部分噪声信号对原音频信号的不利影响。其中,AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知
识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0033]AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大应用程序的处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向,本申请实施例主要涉及其中的语言处理技术。
[0034]ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例主要涉及采用样本数据对初始模型进行训练,得到训练后的噪声本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:获取待处理的音频信号,并对所述待处理的音频信号进行处理,得到所述待处理的音频信号的N维第一特征参数和M维第二特征参数,M,N为正整数;调用噪声优化模型对所述N维第一特征参数和所述M维第二特征参数进行处理,得到P维增益参数,P为正整数;对所述待处理的音频信号和所述P维增益参数进行增益计算处理,得到处理后的音频信号;其中,所述噪声优化模型包括R层门控循环单元网络和激活层,所述激活层用于对第R层门控循环单元网络的输出结果进行激活,R为大于等于2的正整数。2.如权利要求1所述的方法,其特征在于,所述对所述待处理的音频信号进行处理,得到所述待处理的音频信号的N维第一特征参数,包括:对所述待处理的音频信号进行划分,得到N个频带,第i个频带中频点的数量小于第i+1个频带中频点的数量,i为正整数,且i小于等于N;对每个频带分别进行运算,得到所述待处理的音频信号的所述N维第一特征参数。3.如权利要求2所述的方法,其特征在于,所述对所述待处理的音频信号和所述P维增益参数进行处理,得到处理后的音频信号,包括:将所述N个频带中第i个频带的功率谱与所述P维增益参数中第i维增益参数进行运算,得到第i个频带对应的优化功率谱;对每个频带对应的优化功率谱进行信号转换处理,得到处理后的音频信号。4.如权利要求1所述的方法,其特征在于,所述M维第二特征参数包括M-2维低频特征参数,滤波特征参数和能量参数;所述M-2维低频特征参数是采用所述N维第一特征参数中前j维第一特征参数进行运算得到的,所述前j维第一特征参数用于表示所述待处理的音频信号的低频信号的特征,j为正整数,且j小于N;所述滤波特征参数是采用滤波器对所述待处理的音频信号进行处理后得到的,所述能量参数是对所述待处理的音频信号进行运算得到的。5.如权利要求1所述的方法,其特征在于,所述噪声优化模型包括三层门控循环单元;所述噪声优化模型的第一层门控循环单元网络的输入为所述N维第一特征参数和所述M维第二特征参数;所述噪声优化模型的第二层门控循环单元网络的输入为所述第一层门控循环单元网络的输出,所述N维第一特征参数和所述M维第二特征参数;所述噪声优化模型的第三层门控循环单元网络的输入为所述第一层门控循环单元网络的输出,所述第二层门控循环单元网络的输出,所述N维第一特征参数和所述M维第二特征参数。6.如权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:鲍枫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1