语音处理方法、装置、设备和存储介质制造方法及图纸

技术编号：32350109 阅读：8 留言：0更新日期：2022-02-20 02:15

本申请实施例提供了一种语音处理方法、装置、设备和存储介质，所述方法包括：获取待处理语音数据；对所述待处理语音数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除并输出；从而实现消除瞬时噪声。瞬时噪声。瞬时噪声。

全部详细技术资料下载

【技术实现步骤摘要】
语音处理方法、装置、设备和存储介质

[0001]本申请涉及计算机
，特别是涉及一种语音处理方法和装置、一种电子设备和一种存储介质。

技术介绍

[0002]视频会议是指通过现有的通信媒体传输媒体，字符静态，动态图像，语音，文字，图片等多个不同地点的个人或群体(连接到电视，计算机)，使用户的地理分散通过图形，声音等通信手段，决策讨论。
[0003]目前视频会议过程中，经常会遇到不连续的瞬时噪音；例如，办公场景中，敲键盘的声音、点击鼠标的声音、揉纸翻书的声音、开关门的声音、移动物件的声音等。这些噪音并不是一直伴随着会议全过程，但还是极大影响了听觉体验。
[0004]现有技术中，通常采用单通道消噪，即通过在频域追踪噪音，然后用谱减法来实现；其缺陷是只能追踪并消除稳态噪音，对于瞬时噪音没有消除效果。

技术实现思路

[0005]本申请实施例提供了一种语音处理方法，以消除瞬时噪音。
[0006]相应的，本申请实施例还提供了一种语音处理装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。
[0007]为了解决上述问题，本申请实施例公开了一种语音处理方法，所述方法包括：获取待处理语音数据；对所述待处理语音数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除并输出。
[0008]可选地，所述对所述待处理语音数据中的音频帧进行噪声检测，包括：采用语音检测器和端点检测算法，对所述待处理语音数据中的音频帧进行噪声检测。
[0009]...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法，其特征在于，所述方法包括：获取待处理语音数据；对所述待处理语音数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除并输出。2.根据权利要求1所述的方法，其特征在于，所述对所述待处理语音数据中的音频帧进行噪声检测，包括：采用语音检测器和端点检测算法，对所述待处理语音数据中的音频帧进行噪声检测。3.根据权利要求2所述的方法，其特征在于，所述采用语音检测器和端点检测算法，对所述待处理语音数据中的音频帧进行噪声检测，包括：将所述音频帧输入至所述语音检测器中，得到所述语音检测器输出的第一检测信息；以及采用端点检测算法对所述音频帧进行检测，得到所述第二检测信息；依据所述第一检测信息和第二检测信息，对所述待处理语音数据中的音频帧进行噪声检测。4.根据权利要求3所述的方法，其特征在于，所述第一检测信息包括音频帧的语音检测电平，所述第二检测信息包括音频帧为语音帧的概率；所述依据所述第一检测信息和第二检测信息，对所述待处理语音数据中的音频帧进行噪声检测，包括：当所述音频帧的语音检测电平为高电平且所述音频帧的上一音频帧为语音帧时，若所述音频帧和所述音频帧的后N个音频帧为语音帧的概率均小于第一预设阈值，则确定所述音频帧为噪声帧；当所述音频帧的语音检测电平为低电平且所述音频帧的上一音频帧为噪声帧时，若所述音频帧和所述音频帧的后M个音频帧为语音帧的概率均大于第二预设阈值，则确定所述音频帧为语音帧；当所述音频帧的语音检测电平为高电平且所述音频帧的上一音频帧为噪声帧时，若所述音频帧为语音帧的概率小于第一预设阈值，则确定所述音频帧为噪声帧；当所述音频帧的语音检测电平为低电平且所述音频帧的上一音频帧为语音帧时，若所述音频帧为语音帧的概率大于第二预设阈值，则确定所述音频帧为语音帧。5.根据权利要求1所述的方法，其特征在于，所述对所述音频帧进行噪声消除，包括：通过降低所述音频帧的音频幅度或能量，对所述音频帧进行噪声消除。6.根据权利要求1所述的方法，其特征在于，所述的方法还包括：对所述待处理音频数据进行底噪估计，确定所述待处理音频数据的底噪特征信息；采用所述底噪特征信息对所述进行噪声消除后的噪声帧进行填充。7.根据权利要求1所述的方法，其特征在于，所述的方法还包括：若所述音频帧为语音帧，判断所述音频帧和所述音频帧最近的噪声帧的时间差值；若所述时间差值小于第一设定时长，则对所述音频帧进行加速；输出加速后的所述音频帧。8.根据权利要求7所述的方法，其特征在于，所述的方法还包括：若所述音频帧为语音帧，则判断预设缓存区域缓存的目标语音数据的总时长是否达到第二设定时长，所述目标语音数据包括语音帧；
若预设缓存区域缓存的目标语音数据的总时长达到第二设定时长，则删除最早缓存的一语音帧并缓存所述音频帧；若预设缓存区域缓存的目标语音数据的总时长未达到第二设定时长，则缓存所述音频帧；所述对所述音频帧进行加速，包括：按照预设加速规则，对目标语音数据进行加速；所述输出加速后的所述音频帧，包括：依据上一次输出的语音帧对应的时间标识，从加速后的目标语音数据中选取一段时长为音频帧帧长的目标语音数据输出。9.根据权利要求1所述的方法，其特征在于，所述的方法还包括：进行噪声消除提示。10.根据权利要求1所述的方法，其特征在于，所述的方法还包括：接收噪声恢复指令，恢复对应已进行噪声消除的音频帧的噪声并输出。11.根据权利要求1所述的方法，其特征在于，所述的方法还包括：若确定所述音频帧为噪声帧，则进行是否执行噪声消除的提示；接收噪声消除的确认指令，执行所述对所述音频帧进行噪声消除并输出的步骤。12.一种语音处理方法，其特征在于，所述的方法包括：获取待处理语音数据；基于语音检测器和端点检测算法，对所述待处理语音数据进行噪声检测。13.一种语音处理方法，其特征在于，所述的方法包括：获取待处理语音数据；对所述待处理语音数据中的音频帧进行噪声检测；若所述音频帧不是噪声帧，则对所述音频帧变速后输出。14.一种语音处理方法，其特征在于，应用于至少两个终端设备通讯的场景中，所述至少两个终端设备通过服务器通讯，所述的方法包括：服务器获取其中一个终端设备发送的音频数据；对所述音频数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除并发送至至少另一个终端设备；若确定所述音频帧为语音帧，则将所述音频帧发送至至少另一个终端设备。15.一种语音处理方法，其特征在于，应用于至少两个终端设备通讯的场景中，所述的方法包括：其中一个终端设备获取至少另一个终端设备发送的音频数据；对所述音频数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除并播放；若确定所述音频帧为语音帧，则播放所述音频帧。16.一种语音处理方法，其特征在于，应用于至少两个终端设备通讯的场景中，所述至少两个终端设备通过服务器通讯，所述的方法包括：服务器获取其中一个终端设备发送的多媒体数据，所述多媒体数据包括：音频数据和
图像数据；对所述音频数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述图像数据中所述音频帧对应的图像帧进行分析，依据分析结果验证所述音频帧为噪声帧时，对所述音频帧进行噪声消除并发送至至少另一个终端设备；若确定所述音频帧为语音帧，则将所述音频帧发送至至少另一个终端设备。17.一种语音处理方法，其特征在于，应用于至少两个终端设备通讯的场景中，所述的方法包括：其中一个终端设备获取至少另一个终端设备多媒体数据，所述多媒体数据包括：音频数据和图像数据；对所述音频数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述图像数据中所述音频帧对应的图像帧进行分析，依据分析结果验证所述音频帧为噪声帧时，对所述音频帧进行噪声消除并播放；若确定所述音频帧为语音帧，则播放所述音频帧。18.一种语音处理方法，其特征在于，所述的方法包括：采集语音数据；对所述语音数据中的音频帧进行噪声检测；若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除；将噪声消除后的音频帧和确定为语音帧的音频帧合成后存储。19.一种语音处理装置，其特征在于，所述装置包括：第一获取模块，用于获取待处理语音数据；第一噪声检测模块，用于对所述待处理语音数据中的音频帧进行噪声检测；第一噪声消除模块，用于若确定所述音频帧为噪声帧，则对所述音频帧进行噪声消除并输出。20.根据权利要求19所述的装置，其特征在于，所述第一噪声检测模块，用于采用语音检测器和端点检测算法，对所述待处理语音数据中的音频帧进行噪声检测。21.根据权利要求20所述的装置，其特征在于，所述第一噪声检测模块，包括：第一检测信息确定子模块，用于将所述音...

【专利技术属性】
技术研发人员：熊飞飞，冯津伟，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人