基于人工智能的语音处理方法及装置制造方法及图纸

技术编号:15439055 阅读:118 留言:0更新日期:2017-05-26 04:50
本发明专利技术提出一种基于人工智能的语音处理方法及装置,其中,方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。本发明专利技术中,在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。

Speech processing method and device based on Artificial Intelligence

The invention provides an artificial intelligence based speech processing method and device, wherein the method comprises the following steps: marking the current frame voice packet using acoustic model decoding according to the scoring results of treatment; identify whether the current frame is quasi tone frame; if the current frame is to identify the mute frame, skip the current frame in decoding, decode the wrong current frame. In the invention, before decoding in the current frame to decoded packets, according to the acoustic model of the scoring results identify whether the current frame decoding, when no decoding, skip the current frame in decoding, which can avoid redundant decoding, improve decoding speed and speed up the recognition towards the decoded speech packet.

【技术实现步骤摘要】
基于人工智能的语音处理方法及装置
本专利技术涉及信息处理
,尤其涉及一种基于人工智能的语音处理方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。目前多采用基于神经网络的时序类分类(Connectionisttemporalclassification,简称CTC)建模进行语音识别,识别过程中对语音包进行解码时,现有的CTC建模语音识别系统对该语音包中所有的音频帧进行解码。然后实际应用中,一个语音包中有些音频帧可能并不携带信息,这些不携带信息的音频帧一般就是静音帧,现有的CTC建模语音识别系统对静音帧进行解码实际上就是一种冗余解码。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于人工智能的语音处理方法,用于解决现有基于CTC建模的语音识别系统对语音包中包括的静音帧进行解码存在冗余解码的问题。本专利技术的第二个目的在于提出一种基于人工智能的语音处理装置。本专利技术的第三个目的在于提出另一种基于人工智能的语音处理装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于人工智能的语音处理方法,包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。本专利技术实施例的基于人工智能的语音处理方法,通过在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。为达上述目的,本专利技术第二方面实施例提出了一种基于人工智能的语音处理装置,包括:打分模块,用于利用声学模型对待解码的语音包中的当前帧进行打分;识别模块,根据打分结果识别当前帧是否为准静音帧;解码模块,用于如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。本专利技术实施例的基于人工智能的语音处理装置,通过在对待解码的语音包的当前帧进行解码之前,根据声学模型的打分结果识别出当前帧是否需要解码,当不需要解码时,在解码时跳过当前帧,从而可以避免冗余解码,提升解码的速度,加快对待解码的语音包的识别。为达上述目的,本专利技术第三方面实施例提出了另一种基于人工智能的语音处理装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于人工智能的语音处理方法,所述方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于人工智能的语音处理方法,所述方法包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例提供的一种基于人工智能的语音处理方法的流程示意图;图2为本专利技术实施例提供的一种识别准静音帧的流程示意图;图3为本专利技术实施例提供的另一种基于人工智能的语音处理方法的流程示意图;图4为本专利技术实施例提供的一种待解码的语音包中各帧解码时的示意图;图5为本专利技术实施例提供的一种CTC建模单元的拓扑图;图6为本专利技术实施例提供的另一种CTC建模单元的拓扑图;图7为本专利技术实施例提供的一种基于人工智能的语音处理装置的结构示意图;图8为本专利技术实施例提供的识别模块的结构示意图;图9为本专利技术实施例提供的打分模块的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的基于人工智能的语音处理方法及装置。图1为本专利技术实施例所提供的一种基于人工智能的语音处理方法的流程示意图。如图1所示,该基于人工智能的语音处理方法包括以下步骤:S101、利用声学模型对待解码的语音包中的当前帧进行打分。本实施例中,利用声学模型可以的待解码的语音包中的当前帧进行打分,即利用声学模型对当前帧所携带的声学特征进行计算,获得声学特征对应的每一个隐状态的后验概率。例如,当前帧所携带的声学特征为一个发音,利用声学模型可以对该发音对应的可能的字进行打分,获取该发音所对应的字的一个后验概率,此处每个可能的字就是一个隐状态。S102、根据打分结果识别当前帧是否为准静音帧。本实施例中,在识别出当前帧为准静音帧时,则执行S103;在识别出当前帧非准静音帧时,则执行S104。图2为本专利技术实施例中提供的一种识别准静音帧的流程示意图。具体地,该识别准静音帧的流程包括以下步骤:S201、根据打分结果获取当前帧的最优隐状态和次优隐状态。在经过声学模型对当前帧所携带的声学特征对应的每个隐状态进行打分后,就可以根据打分结果识别出当前帧的最优隐状态和次优隐状态。例如,可以将最优隐状态称为stateA,将次优隐状态称为stateB。S202、判断最优隐状态对应的状态标识是否为空白标识。本实施例中,在预先对声学特征进行训练学习的过程中,可以为声学特征对应的每个状态生成一个状态标识,进一步地在训练学习的过程中还可以将一些状态标识识别成空白标识。本实施例中,可以预先利用识别成空白标识的所有状态标识生成一个列表或者关联关系。在获取到的最优隐状态即stateA后,判断该最优隐状态对应的状态标识是否为空白标识。具体地,可以查询该stateA对应的状态标识,是否在上述的列表或者关联关系中,如果存在列表或者关联关系中,则可以判断出该stateA的状态标识为空白标识。如果判断结果为最优隐状态对应的状态标识为空白标识,则执行S203;如果判断结果为最优隐状态对应的状态标识非空白标识,则执行S209。S203、获取最优隐状态和次优隐状态之间的得分本文档来自技高网...
基于人工智能的语音处理方法及装置

【技术保护点】
一种基于人工智能的语音处理方法,其特征在于,包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。

【技术特征摘要】
1.一种基于人工智能的语音处理方法,其特征在于,包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。2.根据权利要求1所述的基于人工智能的语音处理方法,其特征在于,所述根据打分结果识别当前帧是否为准静音帧,包括:根据所述打分结果获取当前帧的最优隐状态和次优隐状态;当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值;如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧;利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。3.根据权利要求2所述的基于人工智能的语音处理方法,其特征在于,还包括:如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧;利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。4.根据权利要求3所述的基于人工智能的语音处理方法,其特征在于,还包括:当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧;利用所述第二标志位标记当前帧。5.根据权利要求4所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分,包括:判断与当前帧相邻的前一帧是否为语音帧;如果判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧;如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分。6.根据权利要求5所述的基于人工智能的语音处理方法,其特征在于,所述当所述最优隐状态对应的标识为非空白标识时,识别出当前帧为语音帧之后,还包括:获取所述前一帧对应的标志位;如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。7.根据权利要求1-6任一项所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分之前,包括:判断当前帧是否为所述语音包中的前三帧中的一帧;如果判断出当前帧为语音包中的前三帧中的一帧,利用第二标志位标记当前帧,其中,所述第二标志位指示出在解码时需要对当前帧进行解码;如果判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧;如果判断出当前帧为语音包中的最后一帧,利用所述第二标志位标记当前帧。8.一种基于人工智能的语音处理装置,其特征在于,包括:打分模块,用于利用声学模型对待解码的语音包中的当...

【专利技术属性】
技术研发人员:王知践钱胜
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1