The invention provides an artificial intelligence based speech processing method and device, wherein the method comprises the following steps: marking the current frame voice packet using acoustic model decoding according to the scoring results of treatment; identify whether the current frame is quasi tone frame; if the current frame is to identify the mute frame, skip the current frame in decoding, decode the wrong current frame. In the invention, before decoding in the current frame to decoded packets, according to the acoustic model of the scoring results identify whether the current frame decoding, when no decoding, skip the current frame in decoding, which can avoid redundant decoding, improve decoding speed and speed up the recognition towards the decoded speech packet.
【技术实现步骤摘要】
基于人工智能的语音处理方法及装置
本专利技术涉及信息处理
,尤其涉及一种基于人工智能的语音处理方法及装置。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的方面就是语音识别技术。目前多采用基于神经网络的时序类分类(Connectionisttemporalclassification,简称CTC)建模进行语音识别,识别过程中对语音包进行解码时,现有的CTC建模语音识别系统对该语音包中所有的音频帧进行解码。然后实际应用中,一个语音包中有些音频帧可能并不携带信息,这些不携带信息的音频帧一般就是静音帧,现有的CTC建模语音识别系统对静音帧进行解码实际上就是一种冗余解码。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于人工智能的语音处理方法,用于解决现有基于CTC建模的语音识别系统对语音包中包括的静音帧进行解码存在冗余解码的问题。本专利技术的第二个目的在于提出一种基于人工智能的语音处理装置。本专利技术的第三个目的在于提出另一种基于人工智能的语音处理装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达 ...
【技术保护点】
一种基于人工智能的语音处理方法,其特征在于,包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。
【技术特征摘要】
1.一种基于人工智能的语音处理方法,其特征在于,包括:利用声学模型对待解码的语音包中的当前帧进行打分;根据打分结果识别当前帧是否为准静音帧;如果识别出当前帧为准静音帧,在解码时跳过当前帧,不对当前帧进行解码。2.根据权利要求1所述的基于人工智能的语音处理方法,其特征在于,所述根据打分结果识别当前帧是否为准静音帧,包括:根据所述打分结果获取当前帧的最优隐状态和次优隐状态;当所述最优隐状态对应的状态标识为空白标识时,获取所述最优隐状态和所述次优隐状态之间的得分差值;如果所述得分差值大于预设的阈值,则识别出当前帧为准静音帧;利用第一标志位标记当前帧,其中,所述第一标志位用于指示出在解码时不需要对当前帧进行解码。3.根据权利要求2所述的基于人工智能的语音处理方法,其特征在于,还包括:如果所述得分差值小于或者等于所述阈值,则识别出当前帧为伪静音帧;利用第二标志位标记当前帧,其中,所述第二标志位用于指示出在解码时需要对当前帧进行解码。4.根据权利要求3所述的基于人工智能的语音处理方法,其特征在于,还包括:当所述最优隐状态对应的状态标识为非空白标识时,识别出当前帧为语音帧;利用所述第二标志位标记当前帧。5.根据权利要求4所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分,包括:判断与当前帧相邻的前一帧是否为语音帧;如果判断结果为所述前一帧为语音帧,利用所述第二标志位标记当前帧;如果判断结果为所述前一帧非语音帧,则利用所述声学模型对当前帧进行打分。6.根据权利要求5所述的基于人工智能的语音处理方法,其特征在于,所述当所述最优隐状态对应的标识为非空白标识时,识别出当前帧为语音帧之后,还包括:获取所述前一帧对应的标志位;如果所述前一帧对应的标志位为所述第一标志位,则利用所述第二标志位重新标记所述前一帧。7.根据权利要求1-6任一项所述的基于人工智能的语音处理方法,其特征在于,所述利用声学模型对待解码的语音包中的当前帧进行打分之前,包括:判断当前帧是否为所述语音包中的前三帧中的一帧;如果判断出当前帧为语音包中的前三帧中的一帧,利用第二标志位标记当前帧,其中,所述第二标志位指示出在解码时需要对当前帧进行解码;如果判断出当前帧非语音包中的前三帧中的一帧,判断当前帧是否为所述语音包中的最后一帧;如果判断出当前帧为语音包中的最后一帧,利用所述第二标志位标记当前帧。8.一种基于人工智能的语音处理装置,其特征在于,包括:打分模块,用于利用声学模型对待解码的语音包中的当...
【专利技术属性】
技术研发人员:王知践,钱胜,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。