语音端点检测中短时能频值的提取方法技术

技术编号:4175903 阅读:283 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及自动字幕生成系统中的语音检测技术,具体涉及一种语音端点检测中短时能频值的提取方法。该方法将音频采样序列分成固定长度的帧,并形成一个帧序列;针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数;根据上述音频特征参数计算每一帧数据的短时能频值,并形成一个短时能频值序列。本发明专利技术将时域和频域的音频特征参数结合在一起,能够发挥它们各自的长处,同时又可以在一定程度上规避各自的缺点,从而能够有效的应对各种不同类型的背景噪声。

Method for extracting short time energy frequency value in speech endpoint detection

The invention relates to a speech detection technique in an automatic caption generation system, in particular to a method for extracting short time energy frequency values in speech endpoint detection. The method of audio sample sequence is divided into fixed length frames, and the formation of a sequence of frames; for each frame of data extraction of short-time energy, short-time zero crossing rate and short-time information entropy three audio feature parameter; according to the audio characteristic parameters calculation of the data of each frame short-time energy frequency value, and the formation of a short-time energy frequency value sequence. The audio feature parameters in time domain and frequency domain together, can play to their strengths, but also can avoid the disadvantages to a certain extent, which can effectively deal with all kinds of different types of background noise.

【技术实现步骤摘要】

本专利技术涉及自动字幕生成系统中的语音检测技术,具体涉及一种。
技术介绍
语音端点检测技术是语音技术研究的一个新的领域,其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿,这种字幕文稿是指在制作电视节目之前,事先写好的一个文本文件,记录着节目的标题、主持人要说的话,以及被采访人所讲的话等内容。在制作电视节目时,编辑人员把音、视频素材添加到非线性编辑软件的故事板上,然后按照节目的主旨,对其进行编辑。编辑操作一般包括对素材位置的修改,添加一些特技,添加字幕等等。添加字幕时,一般是先在字幕文稿中选择多段文字(每一段就是一句话),然后以这些文字生成一个新的字幕文件,将这个文件拖上非线性编辑软件的轨道,此时字幕中的每一句话就会按顺序播出,但是往往会出现“声画不同步”的现象,即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音,一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间,影响唱词文件生成的质量和效率。 从复杂背景噪声中找出语音的起始点和结束点,即语音端点检测技术,一直是语音信号处理中的基本问题。由于语音端点检测的重要性,人们已本文档来自技高网...

【技术保护点】
一种语音端点检测中短时能频值的提取方法,包括如下步骤: (1)将音频采样序列分成固定长度的帧,并形成一个帧序列; (2)针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数; (3)根据上述音频特征参数按如下 公式计算每一帧数据的短时能频值,并形成一个短时能频值序列, EZE-feature↓[i]=(E↓[i]-E↓[b]).(Z↓[i]-Z↓[b]).(H↓[i]-H↓[b]) 其中,EZE-feature↓[i]表示第i帧的短时 能频值;E↓[i]、Z↓[i]和H↓[i]分别表示第i帧的短时能量、短时过零率和短时信息熵...

【技术特征摘要】

【专利技术属性】
技术研发人员:李祺马华东郑侃彦韩忠涛张婷
申请(专利权)人:新奥特北京视频技术有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1