音频处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:26532833 阅读:21 留言:0更新日期:2020-12-01 14:17
本公开涉及一种音频处理方法、装置和计算机可读存储介质,涉及计算机技术领域。该方法包括:根据待处理音频中每一帧的特征信息,利用机器学习模型确定每一帧属于各候选字符的概率;判断每一帧的最大概率对应的候选字符是空白字符还是非空白字符,最大概率为每一帧属于各候选字符的概率中的最大值;在每一帧的最大概率对应的候选字符为非空白字符的情况下,将最大概率确定为有效概率;根据各有效概率,判断待处理音频为有效语音还是噪音。本公开的技术方案能够提高噪音判断的准确率。

【技术实现步骤摘要】
音频处理方法、装置和计算机可读存储介质
本公开涉及计算机
,特别涉及一种音频处理方法、音频处理装置和计算机可读存储介质。
技术介绍
随着技术的不断发展,人机智能交互技术近年来取得了很大的进步。智能语音交互技术在客服场景的应用越来越多。然而,用户所在环境中往往存在各种噪音(如周围人说话声、环境噪声、说话人咳嗽等)。噪音经过语音识别后被错误地识别成一段无意义的文本,从而干扰语义理解,导致自然语言处理无法建立起合理的对话流程。因此,噪音对人机智能交互流程的干扰很大。在相关技术中,一般根据音频信号的能量判定对音频文件是噪音还是有效音。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题:由于不同用户的说话风格、声音大小、周围环境差异较大,能量的判定阀值较难设定,从而导致噪音判断的准确率低。鉴于此,本公开提出了一种音频处理技术方案,能够提高噪音判断的准确率。根据本公开的一些实施例,提供了一种音频处理方法,包括:根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;根据各有效概率,判断所述待处理音频为有效语音还是噪音。在一些实施例中,所述根据各有效概率,判断所述待处理音频为有效语音还是噪音包括:根据所述各有效概率的加权和,计算所述待处理音频的置信度;根据所述置信度,判断所述待处理音频为有效语音还是噪音。在一些实施例中,所述根据所述各有效概率的加权和,计算所述待处理音频的置信度包括:根据所述各有效概率的加权和与所述各有效概率的个数,计算所述置信度,所述置信度与所述各有效概率的加权和正相关,与所述各有效概率的个数负相关。在一些实施例中,在所述待处理音频不存在有效概率的情况下,所述目标音频被判断为噪音。在一些实施例中,所述特征信息通过滑动窗口的方式对所述每一帧进行短时傅里叶变换得到。在一些实施例中,所述机器学习模型依次包括卷积神经网络层、循环神经网络层、全连接层和Softmax层。根据本公开的另一些实施例,提供一种音频处理装置,包括:概率确定单元,用于根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;字符判断单元,用于判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;有效性确定单元,用于在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;噪音判断单元,用于根据各有效概率,判断所述待处理音频为有效语音还是噪音。根据本公开的又一些实施例,提供一种音频处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的音频处理方法。根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的音频处理方法。在上述实施例中,根据每一帧待处理音频对应的候选字符为非空白字符的概率,确定待处理音频的有效性,进而判断待处理音频是否为噪音。这样,基于待处理音频的语义进行噪音判断,能够更好地适应不同的语音环境和不同用户的语音音量,从而提高噪音判断的准确性。附图说明构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:图1示出本公开的音频处理方法的一些实施例的流程图;图2示出图1中步骤110的一些实施例的示意图;图3示出图1中步骤150的一些实施例的流程图;图4示出本公开的音频处理装置的一些实施例的框图;图5示出本公开的音频处理的另一些实施例的框图;图6示出本公开的音频处理的又一些实施例的框图。具体实施方式现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。图1示出本公开的音频处理方法的一些实施例的流程图。如图1所示,该方法包括:步骤110,确定每一帧属于各候选字符的概率;步骤120,判断对应的候选字符是否为非空白字符;步骤140,确定为有效概率;和步骤150,判断是有效语音还是噪音。在步骤110中,根据待处理音频中每一帧的特征信息,利用机器学习模型确定每一帧属于各候选字符的概率。例如,待处理音频可以为客服场景下8KHz采样率、16bit的PCM(PulseCodeModulation,脉冲编码调制)格式的音频文件。在一些实施例中,待处理音频共有T帧{1,2,......t......T},T为正整数,t为小于T的正整数。待处理视频的特征信息为X={x1,x2,......xt......xT},xt为第t帧的特征信息。在一些实施例中,候选字符集合中可以包含常见的中文汉字、英文字母、阿拉伯数字、标点符号等非空白字符以及空白字符<blank>。例如,候选字符集合W={w1,w2,......wi......wI},I为正整数,i为小于I的正整数,wi为第i个候选字符。在一些实施例中,待处理音频中第t帧属于各候选字符的概率分布为Pt(W|X)={pt(w1|X),pt(w2|X),......pt(wi|X)......pt(wI|X)},pt(wi|X)为第t帧属于wi的概率。例如,可以根据应用场景(如电商客服场景、日常交流场景等),采集、配置候选字符集合中的字符。空白字符为无意义字符,表明待处理音频的当前帧无法对应候选字符集合中的任何一个具有实际意义的非空白字符。在一些实施例中,可以通过图2中的实施例确定每一帧属于各候选字符的概率。图2示出图1中步骤110的一些实施例的示意图。如图2所示,可以通过特征提取模块提取待处理音频的特征信息。例如,可以通过滑动窗口的方式提取待处本文档来自技高网...

【技术保护点】
1.一种音频处理方法,包括:/n根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;/n判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;/n在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;/n根据各有效概率,判断所述待处理音频为有效语音还是噪音。/n

【技术特征摘要】
1.一种音频处理方法,包括:
根据待处理音频中每一帧的特征信息,利用机器学习模型确定所述每一帧属于各候选字符的概率;
判断所述每一帧的最大概率对应的候选字符是空白字符还是非空白字符,所述最大概率为所述每一帧属于各候选字符的概率中的最大值;
在所述每一帧的最大概率对应的候选字符为非空白字符的情况下,将所述最大概率确定为有效概率;
根据各有效概率,判断所述待处理音频为有效语音还是噪音。


2.根据权利要求1所述的音频处理方法,其中,所述根据各有效概率,判断所述待处理音频为有效语音还是噪音包括:
根据所述各有效概率的加权和,计算所述待处理音频的置信度;
根据所述置信度,判断所述待处理音频为有效语音还是噪音。


3.根据权利要求2所述的音频处理方法,其中,所述根据所述各有效概率的加权和,计算所述待处理音频的置信度包括:
根据所述各有效概率的加权和与所述各有效概率的个数,计算所述置信度,所述置信度与所述各有效概率的加权和正相关,与所述各有效概率的个数负相关。


4.根据权利要求1所述的音频处理方法,其中,
在所述待处理音频不存在有效概率的情况下,所述目标音频被判断为噪音。


5.根据权利要求...

【专利技术属性】
技术研发人员:李萧萧
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1