语音端点检测中的短时能频值波形斜率门限的确定方法技术

技术编号：4175904 阅读：340 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中的短时能频值波形斜率门限的确定方法。该方法通过分析当前的短时能频值序列，找出其最小值ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍｉｎ］和最大值ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍａｘ］，然后计算ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍａｘ］／１００；比较ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍｉｎ］和ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍａｘ］／１００，取其中较大者，记为ＥＺＥ－ｆｅａｔｕｒｅ↓［ｓｌｏｐｅ］；确定短时能频值波形斜率门限值为Ｒ↓［ｍ］＝ＥＺＥ－ｆｅａｔｕｒｅ↓［ｓｌｏｐｅ］×２。通过本发明专利技术所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效，因此在语音端点检测过程中不需要再次进行修改，而且在绝大部分情况下基本可以满足寻找语句端点的需要，因此，可以提高语音端点的检测效率。

A method for determining the slope of short time energy frequency waveform in speech endpoint detection

The invention relates to a speech detection technique in an automatic caption generation system, in particular to a method for determining a short time energy frequency waveform slope threshold in speech endpoint detection. This method through the analysis of the current short-time energy frequency value sequence, find the minimum value of EZE - feature: min and the maximum value of EZE - feature: Max EZE feature, then calculate: Max / 100 - feature; EZE: min and EZE: feature: Max / 100, whichever is greater, denoted as EZE - feature: slope; determine the short-time energy frequency value waveform slope threshold value is R: M = EZE - feature: slope * 2. Short time found by the method of the invention of the energy frequency value for the slope threshold of short-time energy frequency value series effectively, so it is not necessary to modify the endpoint detection process, and in most cases can meet the basic needs, find the endpoint statement, can improve the detection efficiency of speech.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动字幕生成系统中的语音检测技术，具体涉及一种。
技术介绍
语音端点检测技术是语音技术研究的一个新的领域，其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿，这种字幕文稿是指在制作电视节目之前，事先写好的一个文本文件，记录着节目的标题、主持人要说的话，以及被采访人所讲的话等内容。在制作电视节目时，编辑人员把音、视频素材添加到非线性编辑软件的故事板上，然后按照节目的主旨，对其进行编辑。编辑操作一般包括对素材位置的修改，添加一些特技，添加字幕等等。添加字幕时，一般是先在字幕文稿中选择多段文字(每一段就是一句话)，然后以这些文字生成一个新的字幕文件，将这个文件拖上非线性编辑软件的轨道，此时字幕中的每一句话就会按顺序播出，但是往往会出现“声画不同步”的现象，即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音，一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间，影响唱词文件生成的质量和效率。从复杂背景噪声中找出语音的起始点和结束点，即语音端点检测技术，一直是语音信号处理中的基本问题。由于语音端点检测的重要性，人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。基于门限的语音端点检测方法是根据语音的特点，选择合适的特征参数，然后将该特征参数与预先设定的门限值进行比较，或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。现有的基于门限的端点检测参数主要有 1)能量以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是...

【技术保护点】
一种语音端点检测中的短时能频值波形斜率门限的确定方法，包括如下步骤：　（１）分析当前的短时能频值序列，找出其最小值，记为ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍｉｎ］；找出其最大值，记为ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍａｘ］，然后计算ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍａｘ］／１００；　（２）比较ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍｉｎ］和ＥＺＥ－ｆｅａｔｕｒｅ↓［ｍａｘ］／１００，取其中较大者，记为ＥＺＥ－ｆｅａｔｕｒｅ↓［ｓｌｏｐｅ］；　（３）确定短时能频值波形斜率门限值Ｒ↓［ｍ］＝ＥＺＥ－ｆｅａｔｕｒｅ↓［ｓｌｏｐｅ］×２。

【技术特征摘要】

【专利技术属性】
技术研发人员：李祺，马华东，郑侃彦，韩忠涛，张婷，
申请(专利权)人：新奥特北京视频技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人