一种基于实时解码的语音端点检测方法技术

技术编号:8453750 阅读:202 留言:0更新日期:2013-03-21 20:38
一种基于实时解码的语音端点检测方法,步骤为:输入语音识别相关文本,解析文本;根据文本解析结果构建解码网络;输入语音,提取语音中的声学特征,基于构建的解码网络对所述声学特征进行解码,得到解码后的语音单元序列;对解码后的语音单元序列进行语音端点判断,判断是否是语音端点,所述语音端点分为语音开始点和语音结束点;如果判断结果是语音结束点,则把语音结束点信息反馈给外部外部应用系统,否则继续第二步;在第三步中语音开始点判断是可选的,如果外部外部应用系统不关心语音开始点,则不判断语音开始点。本发明专利技术解决了在语音识别文本确定的情况下,传统端点检测技术表现出来的实时性不高,无法对用户关心的语音进行针对性检测问题。

【技术实现步骤摘要】

本专利技术涉及一种基于解码结果的语音端点检测方法,尤其是一种能及时反馈语音结束点的方法。
技术介绍
语音的端点检测就是确定语音的起点和终点,从语音信号中排除无声段。端点检测的正确与否对语音识别的性能有很大的影响。在语音评测系统中,用户录音的内容已经由试卷文本确定,在用户朗读完试卷内容后及时给出语音末端点并停止计算,有助于提高系统性能和评测效果。在外层应用系统中,端点检测的效果好坏直接影响用户体验。比如在语音学习软件中,用户录音评测时同时进行端点检测,检测到语音结束时,自动停止录音,省去了点停止按钮的繁琐操作,在用户多次使用时能大大提升用户体验;在语音控制系统,如智能家居,用户可以通过“开灯”,“关灯”等命令控制灯的开关,端点检测实时性不高的情况下,会造成这些命令响应不及时,体验不好,如果用户刚说完“开灯”的“灯”字,灯就开了,这样体验是非常好的。现有的端点检测方法可以分成两类门限法和模式识别法。( I)门限法提取语音的某一特征,例如短时能量、短时平均幅度、过零率等,计算其值的大小,结合实际情况与经验确定一门限值,根据一些判断策略,来决定是否是语音开始帧或结束帧,主要的算法有利用短时能量和短时过零率,应用倒谱特征等。(2)模式识别法此类方法是把语音信号的端点检测问题看作是对每帧信号进行分类,通过建立相应的检测准则,对每帧语音进行划分,判断该帧语音是属于背景噪声还是语音,属于该算法的有基于自相关相似距离的语音端点检测方法,基于HMM模型的语音端点检测等。上述方法中的任何一种方法都是与用户朗读文本无关的。在语音识别的文本内容确定时,例如英语学习或中文学习系统,在这些应用场景中,外部应用系统用户朗读的文本内容已经确定,并且只关注用户朗读的文本相关部分的语音,希望用户朗读完指定文本或命令词的最后一个词时,端点检测模块能立即给出语音结束位置。在用户正常朗读指定文本的情况下,现有的端点检测技术由于不知道或者未利用用户朗读的文本内容,需要下一段非语音数据到来,才能进行决策,响应时间较大。如果用户读完了指定的文本后又继续朗读一些与指定文本无关的内容,现有端点检测并不能区分出这部分系统不关心的语音,给出合适的语音结束点。在某些应用场合,可能需要在用户朗读完完整的命令词或句子时,才能给出语音结束点停止录音,如果用户朗读了一半文本内的内容,然后停留了较长时间,现有端点检测可能检测出这段静音,过早的给出语音结束点,不能满足这种应用需求。
技术实现思路
本专利技术技术解决问题克服现有技术的不足,提供,解决在语音识别文本确定的情况下,现有端点检测技术表现出来的实时性不高,无法对用户关心的语音进行针对性检测问题。本专利技术技术解决方案,是一种通过与文本内容相结合的端点检测方法,实现步骤如下第一步输入语音识别相关文本,解析文本;第二步根据文本解析结果构建解码网络;第三步输入语音,提取语音中的声学特征,基于第二步构建的解码网络对所述声学特征进行解码,得到解码后的语言单元序列;所述语言单元序列中每一个单元称为一帧。此处所述声学特征是描述短时语音本质特征的一组值,通常是一种固定维数的特征向量(如39维的MFCC特征向量)。第四步对解码后的语音单元序列进行语音端点判断,判断是否是语音端点,所述语音端点分为语音开始点和语音结束点;如果判断结果是语音结束点,则把语音结束点信息反馈给外部应用系统,否则继续第三步;在第四步中语音开始点判断是可选的,如果外部外部应用系统不关心语音开始点,则不判断语音开始点;所述第四步中的语音开始点判断如下(I. I)取解码器中的最优路径;解码器是语音识别系统的核心之一,其任务是对输入的声学特征,根据声学模型、解码网络,寻找能够以最大概率输出该信号的语言单元序列。解码网络又叫语法网络是解码器的输入之一,没有解码网络解码器不能工作,解码网络限定了解码器输出语言单元序列的范围;(I. 2)语音开始点预警,即根据解码器中的最优路径,判断当前语音文本是否可能达到语音开始点,如果是,进行步骤(1.3),否则退出;(I. 3)预警确认,即判断语音文本中是否有文本内音素或有效的垃圾语音,通过此过程来确认当前是否真的达到语音开始点;如果是,得到开始点,否则直接退出。所述第四步中的语音结束点判断如下(2. I)取解码器中当前最优路径;(2. 2)语音结束点预警,即根据解码器中的最优路径,判断语音文本中的最后一个音素是否可能说了,如果是,进行步骤(2. 3),否则退出;(2. 3)预警被确认,即语音文本中最后一个音素是否真的说过了,通过帧长,帧平均似然度指标来决策,如果判断为真的说了,则得到语音结束点,结束流程,否则直接结束。在某些的应用场景中,有时候用户没读完文本内容,需要返回语音的结束点,这就需要本专利技术检测方法与传统的端点检测方法结合,与传统的端点检测方法相结合的过程步骤如下( I)输入语音识别相关文本,解析文本;(2)根据第一步文本解析结果构建解码网络;(3)输入语音,一方面提取语音中的声学特征,另一方面把语音传给传统的端点检测模块;(4)将本专利技术所述的端点检测方法和传统端点检测同时进行,各自检测出语音端点。(5)结合本专利技术所述的端点检测方法和传统端点检测方法给出的语音端点决策是否是语音端点,可以采用上述两个中任何一个方法检测出是端点就认为是端点的策略,还可以用两种方法都检测出端点才认为是端点;(6)反馈语音端点给外部应用系统。所述第二步中构建解码网络步骤如下(I)得到第一步的文本解析后的最小建模单元,可以是音素、音节、词语;(2)根据最小建模单元个数计算网络中的虚节点数和总结点数,为节点分配内存,并把最小建模单元和网络节点关联起来;(3)根据允许的朗读规则计算网络中的弧数,并为弧分配内存;所述允许的朗读规则包括回读、漏读;(4)根据朗读规则,通过弧把节点连接起来;(5)输出解码网络。所述步骤(I. I)和步骤(2. I)中取解码器中的最优路径的步骤如下(I)遍历当前解码器中所有路径,解析各路径得到对应的语音单元序列和概率;( 2 )根据概率对路径进行排序;(3)取排序后概率最大的路径作为最优路径。所述第三步中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP,线性预测系数LPC或感知线性预测系数PLP。所述第三步中语音单元序列是音素序列、音节序列或文字序列。所述第三步中解码为Viterbi解码,或是基于动态时间规整(DTW)的解码。本专利技术与现有技术相比的优点在于(I)本专利技术在用户正常朗读指定文本时,能在用户读完最后一个词时及时给出语音结束点,响应时间比现有端点检测技术响应时间短,实时性高。(2)本专利技术当用户朗读完指定文本后继续朗读一些其他无关的内容,本方案能智能的区分出这部分系统不关心的垃圾语音,使外部外部应用系统效果更好。(3)本专利技术可以用在对用户朗读的完整性的有要求的录音场合,用户没读完指定内容就不给出语音结束点,现有端点检测技术是做不到的。附图说明图I为本专利技术的实现流程图;图2为本专利技术中的语音开始点判断流程图;图3为本专利技术中的语音结束点判断流程图;图4为本专利技术中与现有端点检测技术相结合的实现流程图;图5为以中文声韵母作为最小单元的解码网络示例;图6为传统的MFCC特征提取流程;图7为传统的端点检测流程。具体实施方式本专利技术是一种与文本文档来自技高网
...

【技术保护点】
一种基于实时解码的语音端点检测方法,其特征在于实现步骤如下:第一步:输入语音识别相关文本,解析文本;第二步:根据文本解析结果构建解码网络;第三步:实时输入语音,提取语音中的声学特征,基于第二步构建的解码网络对所述声学特征进行解码,得到解码后的语言单元序列;所述语言单元序列中每一个单元称为一帧;第四步:对解码后的语音单元序列进行语音端点判断,判断是否是语音端点,所述语音端点分为语音开始点和语音结束点;如果判断结果是语音结束点,则把语音结束点信息反馈给外部应用系统,否则继续第三步;在第四步中语音开始点判断是可选的,如果外部外部应用系统不关心语音开始点,则不判断语音开始点;所述第四步中的语音开始点判断如下:(1.1)取解码器中的最优路径;(1.2)语音开始点预警,即根据解码器中的最优路径,判断当前语音文本是否可能达到语音开始点,如果是,进行步骤(1.3),否则结束判断;(1.3)确认预警,即判断语音文本中是否有文本内音素或有效的垃圾语音,通过此过程来确认当前是否真的达到语音开始点;如果是,得到开始点,否则直接退出;所述第四步中的语音结束点判断如下:(2.1)取解码器中当前最优路径;(2.2)语音结束点预警,即根据解码器中的最优路径,判断语音文本中的最后一个音素是否可能说了,如果是,进行步骤(2.3),否则结束判断;(2.3)确认预警,即语音文本中最后一个音素是否真的说过了,通过帧长,帧平均似然度指标来决策,如果判断为真的说了,则得到语音结束点,结束流程,否则直接结束。...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴玲王兵赵乾潘颂声何春江朱群
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利