语音端点检测中短时能频值的提取方法技术

技术编号：4175903 阅读：283 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及自动字幕生成系统中的语音检测技术，具体涉及一种语音端点检测中短时能频值的提取方法。该方法将音频采样序列分成固定长度的帧，并形成一个帧序列；针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；根据上述音频特征参数计算每一帧数据的短时能频值，并形成一个短时能频值序列。本发明专利技术将时域和频域的音频特征参数结合在一起，能够发挥它们各自的长处，同时又可以在一定程度上规避各自的缺点，从而能够有效的应对各种不同类型的背景噪声。

Method for extracting short time energy frequency value in speech endpoint detection

The invention relates to a speech detection technique in an automatic caption generation system, in particular to a method for extracting short time energy frequency values in speech endpoint detection. The method of audio sample sequence is divided into fixed length frames, and the formation of a sequence of frames; for each frame of data extraction of short-time energy, short-time zero crossing rate and short-time information entropy three audio feature parameter; according to the audio characteristic parameters calculation of the data of each frame short-time energy frequency value, and the formation of a short-time energy frequency value sequence. The audio feature parameters in time domain and frequency domain together, can play to their strengths, but also can avoid the disadvantages to a certain extent, which can effectively deal with all kinds of different types of background noise.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自动字幕生成系统中的语音检测技术，具体涉及一种。
技术介绍
语音端点检测技术是语音技术研究的一个新的领域，其应用于自动字幕生成系统中。当前的字幕制作方法首先需要准备好字幕文稿，这种字幕文稿是指在制作电视节目之前，事先写好的一个文本文件，记录着节目的标题、主持人要说的话，以及被采访人所讲的话等内容。在制作电视节目时，编辑人员把音、视频素材添加到非线性编辑软件的故事板上，然后按照节目的主旨，对其进行编辑。编辑操作一般包括对素材位置的修改，添加一些特技，添加字幕等等。添加字幕时，一般是先在字幕文稿中选择多段文字(每一段就是一句话)，然后以这些文字生成一个新的字幕文件，将这个文件拖上非线性编辑软件的轨道，此时字幕中的每一句话就会按顺序播出，但是往往会出现“声画不同步”的现象，即字幕出现的时刻和音频文件中播出的声音对不上。这时就需要编辑人员一边听声音，一边一句句地修改字幕的入点和出点的值。这就非常耗费人力和时间，影响唱词文件生成的质量和效率。从复杂背景噪声中找出语音的起始点和结束点，即语音端点检测技术，一直是语音信号处理中的基本问题。由于语音端点...

【技术保护点】
一种语音端点检测中短时能频值的提取方法，包括如下步骤：　（１）将音频采样序列分成固定长度的帧，并形成一个帧序列；　（２）针对每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数；　（３）根据上述音频特征参数按如下公式计算每一帧数据的短时能频值，并形成一个短时能频值序列，　ＥＺＥ－ｆｅａｔｕｒｅ↓［ｉ］＝（Ｅ↓［ｉ］－Ｅ↓［ｂ］）.（Ｚ↓［ｉ］－Ｚ↓［ｂ］）.（Ｈ↓［ｉ］－Ｈ↓［ｂ］）　其中，ＥＺＥ－ｆｅａｔｕｒｅ↓［ｉ］表示第ｉ帧的短时能频值；Ｅ↓［ｉ］、Ｚ↓［ｉ］和Ｈ↓［ｉ］分别表示第ｉ帧的短时能量、短时过零率和短时信息熵...

【技术特征摘要】

【专利技术属性】
技术研发人员：李祺，马华东，郑侃彦，韩忠涛，张婷，
申请(专利权)人：新奥特北京视频技术有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人