音频处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号：26532833 阅读：21 留言：0更新日期：2020-12-01 14:17

本公开涉及一种音频处理方法、装置和计算机可读存储介质，涉及计算机技术领域。该方法包括：根据待处理音频中每一帧的特征信息，利用机器学习模型确定每一帧属于各候选字符的概率；判断每一帧的最大概率对应的候选字符是空白字符还是非空白字符，最大概率为每一帧属于各候选字符的概率中的最大值；在每一帧的最大概率对应的候选字符为非空白字符的情况下，将最大概率确定为有效概率；根据各有效概率，判断待处理音频为有效语音还是噪音。本公开的技术方案能够提高噪音判断的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
音频处理方法、装置和计算机可读存储介质
本公开涉及计算机
，特别涉及一种音频处理方法、音频处理装置和计算机可读存储介质。
技术介绍
随着技术的不断发展，人机智能交互技术近年来取得了很大的进步。智能语音交互技术在客服场景的应用越来越多。然而，用户所在环境中往往存在各种噪音(如周围人说话声、环境噪声、说话人咳嗽等)。噪音经过语音识别后被错误地识别成一段无意义的文本，从而干扰语义理解，导致自然语言处理无法建立起合理的对话流程。因此，噪音对人机智能交互流程的干扰很大。在相关技术中，一般根据音频信号的能量判定对音频文件是噪音还是有效音。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题：由于不同用户的说话风格、声音大小、周围环境差异较大，能量的判定阀值较难设定，从而导致噪音判断的准确率低。鉴于此，本公开提出了一种音频处理技术方案，能够提高噪音判断的准确率。根据本公开的一些实施例，提供了一种音频处理方法，包括：根据待处理音频中每一帧的特征信息，利用机器学习模型确定所述每一帧属于各候选字符的概率；判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符，所述最大概率为所述每一帧属于各候选字符的概率中的最大值；在所述每一帧的最大概率对应的候选字符为非空白字符的情况下，将所述最大概率确定为有效概率；根据各有效概率，判断所述待处理音频为有效语音还是噪音。在一些实施例中，所述根据各有效概率，判断所述待处理音频为有效语音还是噪音包括：根据所述各有效概率的加...

【技术保护点】
1.一种音频处理方法，包括：/n根据待处理音频中每一帧的特征信息，利用机器学习模型确定所述每一帧属于各候选字符的概率；/n判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符，所述最大概率为所述每一帧属于各候选字符的概率中的最大值；/n在所述每一帧的最大概率对应的候选字符为非空白字符的情况下，将所述最大概率确定为有效概率；/n根据各有效概率，判断所述待处理音频为有效语音还是噪音。/n

【技术特征摘要】
1.一种音频处理方法，包括：
根据待处理音频中每一帧的特征信息，利用机器学习模型确定所述每一帧属于各候选字符的概率；
判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符，所述最大概率为所述每一帧属于各候选字符的概率中的最大值；
在所述每一帧的最大概率对应的候选字符为非空白字符的情况下，将所述最大概率确定为有效概率；
根据各有效概率，判断所述待处理音频为有效语音还是噪音。

2.根据权利要求1所述的音频处理方法，其中，所述根据各有效概率，判断所述待处理音频为有效语音还是噪音包括：
根据所述各有效概率的加权和，计算所述待处理音频的置信度；
根据所述置信度，判断所述待处理音频为有效语音还是噪音。

3.根据权利要求2所述的音频处理方法，其中，所述根据所述各有效概率的加权和，计算所述待处理音频的置信度包括：
根据所述各有效概率的加权和与所述各有效概率的个数，计算所述置信度，所述置信度与所述各有效概率的加权和正相关，与所述各有效概率的个数负相关。

4.根据权利要求1所述的音频处理方法，其中，
在所述待处理音频不存在有效概率的情况下，所述目标音频被判断为噪音。

5.根据权利要求...

【专利技术属性】
技术研发人员：李萧萧，
申请(专利权)人：京东数字科技控股有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人