一种基于实时解码的语音端点检测方法技术

技术编号：8453750 阅读：202 留言：0更新日期：2013-03-21 20:38

一种基于实时解码的语音端点检测方法，步骤为：输入语音识别相关文本，解析文本；根据文本解析结果构建解码网络；输入语音，提取语音中的声学特征，基于构建的解码网络对所述声学特征进行解码，得到解码后的语音单元序列；对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部外部应用系统，否则继续第二步；在第三步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点。本发明专利技术解决了在语音识别文本确定的情况下，传统端点检测技术表现出来的实时性不高，无法对用户关心的语音进行针对性检测问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于解码结果的语音端点检测方法，尤其是一种能及时反馈语音结束点的方法。
技术介绍
语音的端点检测就是确定语音的起点和终点，从语音信号中排除无声段。端点检测的正确与否对语音识别的性能有很大的影响。在语音评测系统中，用户录音的内容已经由试卷文本确定，在用户朗读完试卷内容后及时给出语音末端点并停止计算，有助于提高系统性能和评测效果。在外层应用系统中，端点检测的效果好坏直接影响用户体验。比如在语音学习软件中，用户录音评测时同时进行端点检测，检测到语音结束时，自动停止录音，省去了点停止按钮的繁琐操作，在用户多次使用时能大大提升用户体验；在语音控制系统，如智能家居，用户可以通过“开灯”，“关灯”等命令控制灯的开关，端点检测实时性不高的情况下，会造成这些命令响应不及时，体验不好，如果用户刚说完“开灯”的“灯”字，灯就开了，这样体验是非常好的。现有的端点检测方法可以分成两类门限法和模式识别法。( I)门限法提取语音的某一特征，例如短时能量、短时平均幅度、过零率等，计算其值的大小，结合实际情况与经验确定一门限值，根据一些判断策略，来决定是否是语音开始帧或结束帧，主要的算法有利用短时能量和短时过零率，应用倒谱特征等。(2)模式识别法此类方法是把语音信号的端点检测问题看作是对每帧信号进行分类，通过建立相应的检测准则，对每帧语音进行划分，判断该帧语音是属于背景噪声还是语音，属于该算法的有基于自相关相似距离的语音端点检测方法，基于HMM模型的语音端点检测等。上述方法中的任何一种方法都是与用户朗读文本无关的。在语音识别的文本内容确定时，例如英语学习或中文学习系统，...

【技术保护点】
一种基于实时解码的语音端点检测方法，其特征在于实现步骤如下：第一步：输入语音识别相关文本，解析文本；第二步：根据文本解析结果构建解码网络；第三步：实时输入语音，提取语音中的声学特征，基于第二步构建的解码网络对所述声学特征进行解码，得到解码后的语言单元序列；所述语言单元序列中每一个单元称为一帧；第四步：对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部应用系统，否则继续第三步；在第四步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点；所述第四步中的语音开始点判断如下：（1.1）取解码器中的最优路径；（1.2）语音开始点预警，即根据解码器中的最优路径，判断当前语音文本是否可能达到语音开始点，如果是，进行步骤（1.3），否则结束判断；（1.3）确认预警，即判断语音文本中是否有文本内音素或有效的垃圾语音，通过此过程来确认当前是否真的达到语音开始点；如果是，得到开始点，否则直接退出；所述第四步中的语音结束点判断如下：（2.1）取解码器中当前最优路径；（2.2）...

【技术特征摘要】

【专利技术属性】
技术研发人员：吴玲，王兵，赵乾，潘颂声，何春江，朱群，
申请(专利权)人：安徽科大讯飞信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人