本发明专利技术涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端点检测中的短时能频值波形斜率门限的确定方法。该方法通过分析当前的短时能频值序列,找出其最小值EZE-feature↓[min]和最大值EZE-feature↓[max],然后计算EZE-feature↓[max]/100;比较EZE-feature↓[min]和EZE-feature↓[max]/100,取其中较大者,记为EZE-feature↓[slope];确定短时能频值波形斜率门限值为R↓[m]=EZE-feature↓[slope]×2。通过本发明专利技术所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效,因此在语音端点检测过程中不需要再次进行修改,而且在绝大部分情况下基本可以满足寻找语句端点的需要,因此,可以提高语音端点的检测效率。
A method for determining the slope of short time energy frequency waveform in speech endpoint detection
The invention relates to a speech detection technique in an automatic caption generation system, in particular to a method for determining a short time energy frequency waveform slope threshold in speech endpoint detection. This method through the analysis of the current short-time energy frequency value sequence, find the minimum value of EZE - feature: min and the maximum value of EZE - feature: Max EZE feature, then calculate: Max / 100 - feature; EZE: min and EZE: feature: Max / 100, whichever is greater, denoted as EZE - feature: slope; determine the short-time energy frequency value waveform slope threshold value is R: M = EZE - feature: slope * 2. Short time found by the method of the invention of the energy frequency value for the slope threshold of short-time energy frequency value series effectively, so it is not necessary to modify the endpoint detection process, and in most cases can meet the basic needs, find the endpoint statement, can improve the detection efficiency of speech.
【技术实现步骤摘要】
本专利技术涉及自动字幕生成系统中的语音检测技术,具体涉及一种。
技术介绍
语音端点检测技术是语音技术研究的一个新的领域,其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿,这种字幕文稿是指在制作电视节目之前,事先写好的一个文本文件,记录着节目的标题、主持人要说的话,以及被采访人所讲的话等内容。在制作电视节目时,编辑人员把音、视频素材添加到非线性编辑软件的故事板上,然后按照节目的主旨,对其进行编辑。编辑操作一般包括对素材位置的修改,添加一些特技,添加字幕等等。添加字幕时,一般是先在字幕文稿中选择多段文字(每一段就是一句话),然后以这些文字生成一个新的字幕文件,将这个文件拖上非线性编辑软件的轨道,此时字幕中的每一句话就会按顺序播出,但是往往会出现“声画不同步”的现象,即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音,一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间,影响唱词文件生成的质量和效率。 从复杂背景噪声中找出语音的起始点和结束点,即语音端点检测技术,一直是语音信号处理中的基本问题。由于语音端点检测的重要性,人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。 基于门限的语音端点检测方法是根据语音的特点,选择合适的特征参数,然后将该特征参数与预先设定的门限值进行比较,或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。 现有的基于门限的端点检测参数主要有 1)能量以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是,在信噪比低的情况下,如在汽车引擎声、关门声等噪声的干扰下,这种方法的准确率很低。 2)频率采用频率域的特征作为判断依据。这种方法可以准确的区分语音和汽车引擎、关门声等噪声,但是,对于语音和乐音的区别效果较差。 无论采用哪种音频参数,传统的语音端点检测方法在特定的噪声环境下都存在很大的不足。比如,基于能量的方法在低SNR的环境中表现不好;基于信息熵的算法在音乐背景下则会失效。 通过对大量仿真试验数据的分析,专利技术人将时域和频域的音频特征参数结合在一起,提出了一种新的音频参数--短时能频值(见同期申请的专利),通过计算音频文件中每一帧的短时能频值,形成一个短时能频值序列,通过寻找短时能频值上升区间或下降区间,计算上升区间或下降区间的短时能频值序列波形的平均斜率,根据波形斜率门限值的设定,就可以对语音的起点或终点进行判断,从而实现语音端点的检测。 在语音端点检测的实际判断过程中,语音、背景音乐和背景噪声的短时能频值波形之间都没有明确的界限,设定不同的门限值会得到不同的语音端点检测结果。可见,短时能频值波形斜率门限值设定的是否合适将直接影响语音端点检测的准确性。
技术实现思路
本专利技术的目的在于针对应用短时能频值序列进行语音端点检测的技术特点,提供一种短时能频值波形斜率门限的确定方法,以满足语音端点检测技术的需要。 本专利技术的技术方案如下一种,包括如下步骤 (1)分析当前的短时能频值序列,找出其最小值,记为EZE-featuremin;找出其最大值,记为EZE-featuremax,然后计算EZE-featuremax/100; (2)比较EZE-featuremin和EZE-feturemax/100,取其中较大者,记为EZE-featureslope; (3)确定短时能频值波形斜率门限值Rm=EZE-featureslope×2。 进一步,如上所述的,短时能频值序列中的第i帧的短时能频值为 EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,RZE-featurei表示第i帧的短时能频值;Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵;Eb、Zb和Hb分别表示当前背景噪声的短时能量,短时过零率和短时信息熵。 进一步,如上所述的,第i帧的短时能量为 其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。 进一步,如上所述的,第i帧的短时过零率为 其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值;sgn()为符号函数,定义为 进一步,如上所述的,提取第i帧短时信息熵的步骤如下 (a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换 其中,Sn表示第n个音频采样,N为总采样数; (b)计算每一频率的出现概率 其中,s(fi)表示频率f的频谱能量,pi表示相应频率的出现概率,M表示傅里叶变换计算得出的频率的总数,即窗口宽度, 所规定的约束条件为 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 (c)计算语音信息熵 其中,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,pi表示相应频率的出现概率,Hi表示第i帧的短时信息熵。 本专利技术的有益效果如下通过本专利技术所述方法找到的短时能频值斜率门限对于整个短时能频值序列都有效,因此在语音端点检测过程中不需要再次进行修改,而且在绝大部分情况下基本可以满足寻找语句端点的需要,因此,可以提高语音端点的检测效率。另外,通过结合适当的人工干预,可以通过修改短时能频值斜率的门限来调整检测的结果,从而提高语句端点检测的精度。 附图说明 图1为确定短时能频值波形斜率门限的流程图。 图2为短时能频值的提取流程图。 图3为短时能频值波形的标示图。 具体实施例方式 首先,对与短时能频值波形斜率门限相关的
技术实现思路
进行介绍。 (一)短时能量、短时过零率和短时信息熵三个音频特征参数的提取 1.短时能量 能量是最经常使用的音频特征参数之一,是对语音信号最直观的表示。语音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以用于区别发音的清音段和浊音段,能量值较大的对应于清音段,能量值较小的对应于浊音段。对于高信噪比的信号,可以用能量来判断有无语音。无语音信号的噪声能量较小,而有语音信号时能量会显著增大,由此可以粗略区分语音信号的起始点和中止点。另外,能量还可以用来区分声母和韵母的分界、以及连字的分界等。 在本专利技术中,采用“短时能量”作为主要的特征参数之一。所谓短时能量,就是先对音频信号进行分帧处理,然后对每一帧求其能量,它被定义为一帧中所有采样值平方的和。第i帧的短时能量定义为 其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。 2.短时过零率 过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号的时域波形通过时间横轴时,相邻时刻的采样值如果具有不同的符号,称为“过零”。单位时间的过零次数称为“过零率”,即单位时间内音频采样值符号变换的次数。同上,在本专利技术中将单位时间限定为一帧,每一帧的过零率就是“短时过零率”。第i帧的短时过零率定义如下 其中,Sn表示第n个采样的取样值;sgn()为符号函数,定义为 过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在本文档来自技高网...
【技术保护点】
一种语音端点检测中的短时能频值波形斜率门限的确定方法,包括如下步骤: (1)分析当前的短时能频值序列,找出其最小值,记为EZE-feature↓[min];找出其最大值,记为EZE-feature↓[max],然后计算EZE-feat ure↓[max]/100; (2)比较EZE-feature↓[min]和EZE-feature↓[max]/100,取其中较大者,记为EZE-feature↓[slope]; (3)确定短时能频值波形斜率门限值R↓[m]=E ZE-feature↓[slope]×2。
【技术特征摘要】
【专利技术属性】
技术研发人员:李祺,马华东,郑侃彦,韩忠涛,张婷,
申请(专利权)人:新奥特北京视频技术有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。