语音端点检测中短时能频值的提取方法技术

技术编号:4175903 阅读:278 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端点检测中短时能频值的提取方法。该方法将音频采样序列分成固定长度的帧,并形成一个帧序列;针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数;根据上述音频特征参数计算每一帧数据的短时能频值,并形成一个短时能频值序列。本发明专利技术将时域和频域的音频特征参数结合在一起,能够发挥它们各自的长处,同时又可以在一定程度上规避各自的缺点,从而能够有效的应对各种不同类型的背景噪声。

Method for extracting short time energy frequency value in speech endpoint detection

The invention relates to a speech detection technique in an automatic caption generation system, in particular to a method for extracting short time energy frequency values in speech endpoint detection. The method of audio sample sequence is divided into fixed length frames, and the formation of a sequence of frames; for each frame of data extraction of short-time energy, short-time zero crossing rate and short-time information entropy three audio feature parameter; according to the audio characteristic parameters calculation of the data of each frame short-time energy frequency value, and the formation of a short-time energy frequency value sequence. The audio feature parameters in time domain and frequency domain together, can play to their strengths, but also can avoid the disadvantages to a certain extent, which can effectively deal with all kinds of different types of background noise.

【技术实现步骤摘要】

本专利技术涉及自动字幕生成系统中的语音检测技术,具体涉及一种。
技术介绍
语音端点检测技术是语音技术研究的一个新的领域,其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿,这种字幕文稿是指在制作电视节目之前,事先写好的一个文本文件,记录着节目的标题、主持人要说的话,以及被采访人所讲的话等内容。在制作电视节目时,编辑人员把音、视频素材添加到非线性编辑软件的故事板上,然后按照节目的主旨,对其进行编辑。编辑操作一般包括对素材位置的修改,添加一些特技,添加字幕等等。添加字幕时,一般是先在字幕文稿中选择多段文字(每一段就是一句话),然后以这些文字生成一个新的字幕文件,将这个文件拖上非线性编辑软件的轨道,此时字幕中的每一句话就会按顺序播出,但是往往会出现“声画不同步”的现象,即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音,一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间,影响唱词文件生成的质量和效率。 从复杂背景噪声中找出语音的起始点和结束点,即语音端点检测技术,一直是语音信号处理中的基本问题。由于语音端点检测的重要性,人们已经提出了很多种语音端点检测方法。这些方法大致可以分为基于模型的方法和基于门限的方法两类。 基于门限的语音端点检测方法是根据语音的特点,选择合适的特征参数,然后将该特征参数与预先设定的门限值进行比较,或者是先对特征参数进行一系列的后期处理然后再与门限进行比较。 现有的基于门限的端点检测参数主要有 1)能量以声音的强度作为判断参数。这种方法在高信噪比的情况下会有很好的效果。但是,在信噪比低的情况下,如在汽车引擎声、关门声等噪声的干扰下,这种方法的准确率很低。 2)频率采用频率域的特征作为判断依据。这种方法可以准确的区分语音和汽车引擎、关门声等噪声,但是,对于语音和乐音的区别效果较差。 无论采用哪种音频参数,传统的语音端点检测方法在特定的噪声环境下都存在很大的不足。比如,基于能量的方法在低SNR的环境中表现不好;基于信息熵的算法在音乐背景下则会失效。 因此,有必要引入一种音频参数,能够在多种噪声条件下保证语音端点检测的准确性。
技术实现思路
本专利技术的目的在于针对自动字幕生成系统的特点以及传统语音端点检测方法在语音特征参数选取上的缺陷,提供一种,该方法将时域和频域的音频特征参数结合在一起,能够发挥它们各自的长处,同时又可以在一定程度上规避各自的缺点,从而能够有效的应对各种不同类型的背景噪声。 本专利技术的技术方案如下一种,包括如下步骤 (1)将音频采样序列分成固定长度的帧,并形成一个帧序列; (2)针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (3)根据上述音频特征参数按如下公式计算每一帧数据的短时能频值,并形成一个短时能频值序列, EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i帧的短时能频值;Ei、Zi和Hi分别表示第i帧的短时能量、短时过零率和短时信息熵;Eb、Zb和Hb分别表示当前背景噪声的短时能量、短时过零率和短时信息熵。 进一步,如上所述的,在步骤(1)中,将音频采样序列分成10ms长度的帧。 进一步,如上所述的,在步骤(2)中,所提取的第i帧的短时能量为 其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。 进一步,如上所述的,在步骤(2)中,所提取的第i帧的短时过零率为 其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值;sgn()为符号函数,定义为 进一步,如上所述的,在步骤(2)中,提取短时信息熵的步骤如下 (a)利用短时傅里叶变换(FFT)对每一帧的信号进行由时域向频域的转换 其中,Sn表示第n个音频采样,N为总采样数; (b)计算每一频率的出现概率 其中,s(fi)表示频率f的频谱能量,pi表示相应频率的出现概率,M表示傅里叶变换计算得出的频率的总数,即窗口宽度, 所规定的约束条件为 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 (c)计算语音信息熵 其中,M表示傅里叶变换计算得出的频率的总数,即窗口宽度,pi表示相应频率的出现概率,Hi表示第i帧的短时信息熵。 更进一步,如上所述的,在步骤(3)中,对每一帧的短时能频值进行平滑处理,处理中对短时能量、短时过零率和短时信息熵三个音频特征参数分别进行平滑,通常采用5帧平滑的方式,对于某一帧Fn,设它的某个音频特征参数是Xn,找到它左右相邻的4帧Fn-2、Fn-1、Fn+1、Fn+2,并找出它们相应的音频特征参数Xn-2、Xn-1、Xn+1、Xn+2,则平滑后得到的音频特征参数Xn-smoothed为 对于第一帧和最后一帧采用3帧平滑的方式,平滑后得到的音频特征参数分别为 对于第二帧和倒数第二帧采用4帧平滑的方式,平滑后得到的音频特征参数分别为 本专利技术的有益效果如下本专利技术所提供的综合考虑了语音的时域和频域特征,将时域和频域的音频特征参数结合在一起,能够发挥它们各自的长处,同时又可以在一定程度上规避各自的缺点。语音端点检测所针对的一般是一段比较长的语音段,在此期间背景噪声随时有可能发生各种变化。当检测到背景噪声的变化时,可以相应的更新Eb、Zb和Hb三个参数的值,然后重新计算那些受此噪声影响的帧的短时能频值,从而使短时能频值能够对背景噪声的变化做出反应,从而能够有效的应对各种不同类型的背景噪声。 附图说明 图1为短时能频值的提取流程图。 图2为短时能频值的波形图。 图3为短时能频值的平滑处理流程图。 图4为短时能频值平滑处理前后的波形对比图。 具体实施例方式 下面结合附图和具体实施例对本专利技术进行详细的描述。 (一)短时能量、短时过零率和短时信息熵三个音频特征参数的提取 1.短时能量 能量是最经常使用的音频特征参数之一,是对语音信号最直观的表示。语音信号的能量分析基于语音信号幅度随时间有相当的变化这一现象。能量可以用于区别发音的清音段和浊音段,能量值较大的对应于清音段,能量值较小的对应于浊音段。对于高信噪比的信号,可以用能量来判断有无语音。无语音信号的噪声能量较小,而有语音信号时能量会显著增大,由此可以粗略区分语音信号的起始点和中止点。另外,能量还可以用来区分声母和韵母的分界、以及连字的分界等。 在本专利技术中,采用“短时能量”作为主要的特征参数之一。所谓短时能量,就是先对音频信号进行分帧处理,然后对每一帧求其能量,它被定义为一帧中所有采样值平方的和。第i帧的短时能量定义为 其中,N表示第i帧中所包含的音频采样数量;Sn表示第n个采样的取样值。 2.短时过零率 过零率是声音信号处理过程中一个常用的音频特征参数。当离散语音信号的时域波形通过时间横轴时,相邻时刻的采样值如果具有不同的符号,称为“过零”。单位时间的过零次数称为“过零率”,即单位时间内音频采样值符号变换的次数。同上,在本专利技术中将单位时间限定为一帧,每一帧的过零率就是“短本文档来自技高网
...

【技术保护点】
一种语音端点检测中短时能频值的提取方法,包括如下步骤: (1)将音频采样序列分成固定长度的帧,并形成一个帧序列; (2)针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (3)根据上述音频特征参数按如下 公式计算每一帧数据的短时能频值,并形成一个短时能频值序列, EZE-feature↓[i]=(E↓[i]-E↓[b]).(Z↓[i]-Z↓[b]).(H↓[i]-H↓[b]) 其中,EZE-feature↓[i]表示第i帧的短时 能频值;E↓[i]、Z↓[i]和H↓[i]分别表示第i帧的短时能量、短时过零率和短时信息熵;E↓[b]、Z↓[b]和H↓[b]分别表示当前背景噪声的短时能量、短时过零率和短时信息熵。

【技术特征摘要】

【专利技术属性】
技术研发人员:李祺马华东郑侃彦韩忠涛张婷
申请(专利权)人:新奥特北京视频技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1