一种基于融合特征的语音端点检测方法和装置制造方法及图纸

技术编号：21202640 阅读：20 留言：0更新日期：2019-05-25 02:02

本发明专利技术的实施方式提供了一种基于融合特征的语音端点检测方法和装置，方法包括：实时获取待测语音信号并执行分帧预处理，获得语音信号；对语音信号执行特征提取操作，获得每一帧语音信号的时域特征和频域特征；对每一帧语音信号的时域特征和频域特征执行预设融合处理，以获得每一帧语音信号的融合特征；基于预设阈值和每一帧语音信号的融合特征，对待测语音信号的语音端点进行检测。本发明专利技术还提供了对应的装置与计算机可读存储介质。通过上述检测方法基于较少的运算量，达到显著提高检测准确度的效果。

A Speech Endpoint Detection Method and Device Based on Fusion Feature

The embodiments of the present invention provide a voice endpoint detection method and device based on fusion features. The methods include: acquiring the speech signal to be measured in real time and performing sub-frame preprocessing to obtain the speech signal; performing feature extraction operation to obtain the time domain and frequency domain features of each speech signal; and persisting in the time domain and frequency domain features of each speech signal. Presupposition fusion processing is performed to obtain the fusion features of each speech signal. Based on the presupposition threshold and the fusion features of each speech signal, the speech endpoints of the detected speech signal are detected. The invention also provides a corresponding device and a computer readable storage medium. Through the above detection method, based on less computation, the detection accuracy can be significantly improved.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于融合特征的语音端点检测方法和装置
本专利技术涉及语音识别领域，具体涉及一种基于融合特征的语音端点检测方法和装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。近年来，随着人机信息交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音端点检测(VoiceActivityDetection，简称VAD)是语音识别中的关键技术之一。语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点。端点检测准确与否，会直接影响到语音识别系统的性能。如果端点切分出现错误，则会导致漏识别或者误识别等情况的发生，进而可导致语音识别结果不准确。传统的语音端点检测方法主要是获取时域或频域能量，并与给定的阈值进行比较，从而判断出语音的起始点和终止点。随着深度学习技术的快速发展，提出了多种基于模型的语音端点检测方法。然而，在实现本专利技术的过程中专利技术人发现上述语音端点检测算法至少存在以下问题：(1)传统的语音端点检测方法适用于平稳噪声，且高信噪比的环境，但在非平稳噪声、较低信噪比环境下，上述语音端点检测方法的检测效果不好，所检测的语音端点的准确率较低；(2)对于基于模型的语音端点检测方法，比如以GMM模型判定的VAD，由于数学模型的复杂性，实现端点检测的计算量很大，尤其是应用到嵌入式装置上时会造成较大的资源损耗。
技术实现思路
为了解决上述实现端点检测的计算量很大，会造成较大的资源损耗的技术问题，本专利技术的实施例提出一种基于融合特征的语音端点检测方法和装置，可以在减少运算的同时保...

【技术保护点】
1.一种基于融合特征的语音端点检测方法，其特征在于，所述方法包括：实时获取待测语音信号；对所述待测语音信号执行分帧预处理，以获得至少一帧语音信号；对所述至少一帧语音信号执行特征提取操作，以获得所述至少一帧语音信号中的每一帧语音信号的时域特征和频域特征；对所述至少一帧语音信号中的每一帧语音信号的时域特征和频域特征执行预设融合处理，以获得所述至少一帧语音信号中的每一帧语音信号的融合特征；基于预设阈值和所述至少一帧语音信号中的每一帧语音信号的融合特征，对所述待测语音信号的语音端点进行检测。

【技术特征摘要】
1.一种基于融合特征的语音端点检测方法，其特征在于，所述方法包括：实时获取待测语音信号；对所述待测语音信号执行分帧预处理，以获得至少一帧语音信号；对所述至少一帧语音信号执行特征提取操作，以获得所述至少一帧语音信号中的每一帧语音信号的时域特征和频域特征；对所述至少一帧语音信号中的每一帧语音信号的时域特征和频域特征执行预设融合处理，以获得所述至少一帧语音信号中的每一帧语音信号的融合特征；基于预设阈值和所述至少一帧语音信号中的每一帧语音信号的融合特征，对所述待测语音信号的语音端点进行检测。2.根据权利要求1所述方法，其特征在于，所述时域特征至少包括能量特征和谱平坦度特征，所述频域特征至少包括频率特征。3.根据权利要求1所述方法，其特征在于，基于预设阈值和所述至少一帧语音信号中的每一帧语音信号的融合特征，对所述待测语音信号的语音端点进行检测进一步包括：对所述至少一帧语音信号中的每一帧语音信号逐帧进行判断；若所述至少一帧语音信号中的任意一个语音信号的融合特征满足第一预设条件，则将所述任意一个语音信号作为第一语音信号划分到第一分类；若所述至少一帧语音信号中的任意一个语音信号的融合特征未满足所述第一预设条件，则将所述任意一个语音信号作为第二语音信号划分到第二分类；其中，所述第一预设条件基于所述预设阈值而形成。4.根据权利要求3所述方法，其特征在于，在对所述至少一帧语音信号中的每一帧语音信号逐帧进行判断的过程中，所述方法进一步包括：若所述至少一帧语音信号中，超过第一帧数的第一语音信号被连续划分到所述第一分类，则将所述超过第一帧数的第一语音信号的起点判定为第一语音端点；若所述至少一帧语音信号中，在检测到所述第一语音端点之后，超过第二帧数的第二语音信号被连续划分到所述第二分类，则将所述超过第二帧数的第二语音信号的起点判定为第二语音端点。5.根据权利要求3所述方法，其特征在于，若所述至少一帧语音信号中的任意一个语音信号的融合特征未满足所述第一预设条件，将所述任意一个语音信号作为第二语音信号划分到第二分类时，所述方法还包括：根据所述第二语音信号的融合特征更新所述预设阈值；根据所述预设阈值更新所述第一预设条件。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述待测语音信号中的至少一个第三语音信号；根据所述至少一个第三语音信号的能量特征均值与谱平坦度特征最小值，以获取所述待测语音信号的初始时域特征；根据所述至少一个第三语音信号的频率特征最小值，以获取所述待测语音信号的初始频域特征；根据所述待测语音信号的所述初始时域特征与所述初始频域特征，获取所述预设阈值。7.根据权利要求2中所述的方法，其特征在于，所述至少一帧语音信号中的每帧待测语音信号的频率特征为所述至少一帧语音信号中的每帧待测语音信号的最高频率值。8.根据权利要求1所述的方法，其特征在于，所述对所述至少一帧语音信号中的每一帧语音信号的时域特征和频域特征执行预设融合处理至少包括下列中的部分或全部：根据预设的决策树模型，对所述至少一帧语音信号的时域特征和频域特征执行预设融合处理；根据预设的权值参数，对所述至少一帧语音信号的时域特征和频域特征执行预设融合处理。9.一种基于融合特征的语音端点检测装置，其特征在于，所述装置包括：获取模块，用于实时获取待测语音信号；分帧模块，用于对所述待测语音信号执行分帧预处理，以获得至少一帧语音信号；提取模块，用于对所述至少一帧语音信号执行特征提取操作，以获得所述至少一帧语音信号中的每一帧语音信号的时域特征和频域特征；融合模块，用于对所述至少一帧语音信号中...

【专利技术属性】
技术研发人员：王彦，张楠赓，
申请(专利权)人：北京嘉楠捷思信息技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人