一种基于深度学习的语音端点检测方法及系统技术方案

技术编号:23151336 阅读:21 留言:0更新日期:2020-01-18 14:19
本发明专利技术公开了一种基于深度学习的语音端点检测方法及系统,包括:利用收集的音频数据生成样本音频数据;分帧处理样本音频数据,划分处理后得到的待训练语音帧为非噪声语音帧和噪声语音帧,获得训练集;利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;将端点待检测语音数据输入该训练后的模型,输出该语音数据中的所有非噪声语音帧和噪声语音帧;基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引为语音端点。本发明专利技术解决了传统语音端点检测技术低信噪比识别准确率低、部分方法识别速度慢和语音特征选取困难的问题。

A speech endpoint detection method and system based on deep learning

【技术实现步骤摘要】
一种基于深度学习的语音端点检测方法及系统
本专利技术涉及语音信号处理领域,具体地,涉及一种基于深度学习的语音端点检测方法及系统。
技术介绍
语音是信息交互的重要方式,语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点,是一种运用在语音前端的处理技术,通过语音端点检测算法提取出含有语音的音频数据,为后期声源定位、语音识别、语音编码等任务提供有效的信息。随着人工智能的发展,人们希望通过“语音”实现人机交互,辨别说话人身份及识别具体语音内容,语音端点检测是其关键环节。在通信领域,需要尽可能地降低信号静音段的数据传输效率以保证接受语音信号的质量,此时准确的信号端点检测也是不可少的。另外,国家安全保密工作中的通信线路监控工作中语音端点检测也起着至关重要的作用,在节约资源成本的同时不影响信息检测。传统的语音端点检测的主要方法包括:(1)基于单一门限或多门限判决的端点检测方法。该类方法主要通过统计检验某种特征参数(短时能量,过零率,信息熵等)来区分噪音和非噪音。例如:基于短时能量的端点检测方法首先将整段语音划分成语音帧,之后计算语音帧的短时能量,最后判断短时能量是否大于既定阈值。大于阈值的语音帧则判定为非噪音,小于阈值的语音帧则判定为噪音。(2)基于统计模型的语音端点检测方法,主要包括以下步骤:接收输入的待检测语音信号;分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理以生成待检测语音信号的第二语音特征信息;根据第二语音特征信息和声学模型获得待检测语音信号的识别结果。传统的语音端点检测方法存在抗噪性差,特征选取困难的问题。在低信噪比的情况下,语音端点检测效果较差,很难识别语音具体所在位置;语音特征众多,比如短时能量,过零率,信息熵,Mel倒谱系数等,选取的语音特征不同得到的效果也有所不同。如何有针对性的选取语音特征并进行分析也是语音端点检测中的一大难题。
技术实现思路
本专利技术针对真实复杂情况下的语音,提供了一种传统信号处理和深度学习相结合的智能语音定位检测的方法及系统,旨在解决当前基于传统语音端点检测技术方法低信噪比识别准确率低、部分方法识别速度慢和语音特征选取困难的问题。为实现上述专利技术目的,本专利技术一方面提供了一种语音端点检测的方法,以解决传统技术中端点检测方法抗燥性差和特征提取困难的技术问题。具体的
技术实现思路
如下:步骤1语音数据增强。步骤1.1收集语音音频数据和噪声音频数据;其中,音帧可能是包含人说话的声音或者是非人说话的声音;包含人说话的声音的语音帧称为语音,不包含人说话的语音帧称为噪声;步骤1.2对收集的音频数据执行升采样或降采样操作,统一语音音频数据和噪声音频数据的采样率;步骤1.3随机提取几段语音音频数据和一段噪声音频数据;步骤1.4使用音频数据融合的方法融合语音音频数据和噪声音频数据,其具体方法即是在噪声音频数据上的随机位置随机加入语音音频数据;步骤1.5重复上述步骤1.3-1.4,生成大量的样本音频数据。步骤2分帧和标记样本音频数据。步骤2.1以预设的单位时间分帧处理样本音频数据,得到待训练语音帧;步骤2.2判断每个待训练语音帧中是否包含语音;将包含语音的待训练语音帧标记为第一类别即待训练非噪声语音帧,将不包含语音的待训练语音帧划分为第二类别即待训练噪声语音帧;步骤2.3提取多个待训练非噪声语音帧作为正样本,提取多个待训练噪声语音帧作为负样本,共同构成训练集用于训练深度神经网络模型。步骤3训练深度神经网络模型。步骤3.1对训练集中的待训练语音帧执行第一次卷积操作,卷积核数为n1,学习待训练语音帧在时域上声学特征,得到第一个特征向量;步骤3.2对训练集中的待训练语音帧执行第二次卷积操作,卷积核数为n2,学习待训练语音帧在时域上声学特征,得到第二个特征向量;步骤3.3对训练集中的待训练语音帧执行第三次卷积操作,卷积核数为n3,学习待训练语音帧在时域上声学特征,得到第三个特征向量;以上三次卷积操作的卷积核数可根据实际情况进行调整;步骤3.4将三个不同的特征向量进行特征融合,即拼接三个特征向量;步骤3.5对特征融合后的特征向量执行卷积操作,学习、提取语音帧的频域特征;步骤3.6使用LSTM层学习步骤3.5提取的特征向量得到学习后的特征向量;步骤3.7使用全连接层分类上述学习后的特征向量,输出待训练语音帧属于非噪声语音帧和噪声语音帧的概率值;步骤3.8比较待训练语音帧属于非噪声语音帧和噪声语音帧的概率值,如果深度神经网络模型输出的属于非噪声语音帧概率值大于属于噪声语音帧的概率值,则认为该语音帧为非噪声语音帧。反之,如果深度神经网络模型给出的属于非噪声语音帧概率值小于属于噪声语音帧的概率值,则认为该语音帧为噪声语音帧。步骤4合并语音帧。步骤4.1根据时序顺序依次拼接语音帧;步骤4.2将连续的非噪声语音帧标记为非噪声语音段,将连续的噪声语音帧标记为噪声语音段;步骤4.3将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段,将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段;步骤4.4设定合并阈值a和误识别阈值b;阈值a的设定是为了解决实际是连续语音而识别结果非连续语音的问题;阈值b的设定是为了解决单一语音帧误识别问题。步骤4.5对于整段语音,统计所有两段非噪声语音段之间的采样点数量;如果两段非噪声语音段之间的采样点数量小于合并阈值a,则将两段非噪声语音段中间的噪声语音段标记为非噪声语音段,即合并该噪声语音段相邻的两段非噪声语音段;步骤4.6对于整段语音,统计所有两段噪声语音段之间的采样点数量;如果两段噪声语音段之间的采样点数量小于合并阈值a,则将两段噪声语音段中间的非噪声语音段标记为噪声语音段,即合并该非噪声语音段相邻的两段噪声语音段。步骤4.7提取所有的非噪声语音段在整段语音中的起始坐标索引和结束坐标索引。与本专利技术中的方法对应,本专利技术还提供了一种基于深度学习的语音端点检测系统,所述系统包括:样本生成单元,用于利用收集的音频数据生成样本音频数据;样本处理单元,用于分帧处理样本音频数据获得待训练语音帧,根据每个待训练语音帧中是否包含语音,将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧,若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集;模型训练单元,用于利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;模型输出单元,用于将端点待检测语音数据输入训练后的深度神经网络模型,训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧;语音端点检测结果获得单元,用于基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果。...

【技术保护点】
1.一种基于深度学习的语音端点检测方法,其特征在于,所述方法包括:/n步骤1:利用收集的音频数据生成样本音频数据;/n步骤2:分帧处理样本音频数据获得待训练语音帧,根据待训练语音帧中是否包含语音,将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧,若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集;/n步骤3:利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;/n步骤4:将端点待检测语音数据输入训练后的深度神经网络模型,训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧;/n步骤5:基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果。/n

【技术特征摘要】
1.一种基于深度学习的语音端点检测方法,其特征在于,所述方法包括:
步骤1:利用收集的音频数据生成样本音频数据;
步骤2:分帧处理样本音频数据获得待训练语音帧,根据待训练语音帧中是否包含语音,将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧,若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集;
步骤3:利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;
步骤4:将端点待检测语音数据输入训练后的深度神经网络模型,训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧;
步骤5:基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果。


2.根据权利要求1所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:收集语音音频数据和噪声音频数据;
步骤1.2:对收集的音频数据执行升采样或降采样操作,统一语音音频数据和噪声音频数据的采样率;
步骤1.3:从收集的音频数据中随机提取若干段语音音频数据和一段噪声音频数据;
步骤1.4:融合提取的语音音频数据和噪声音频数据;
步骤1.5:重复执行若干次步骤1.3-步骤1.4,生成样本音频数据。


3.根据权利要求1所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤2具体包括:
步骤2.1:以预设的单位时间分帧处理样本音频数据,得到待训练语音帧;
步骤2.2:判断待训练语音帧中是否包含语音,将包含语音的待训练语音帧标记为第一类别即待训练非噪声语音帧,将不包含语音的待训练语音帧划分为第二类别即待训练噪声语音帧;
步骤2.3:提取若干个待训练非噪声语音帧作为正样本,提取多个待训练噪声语音帧作为负样本,正样本和负样本共同构成训练集。


4.根据权利要求1-3中任意一个所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤3具体包括:
步骤3.1:对训练集中的待训练语音帧执行第一次卷积操作,卷积核数为n1,学习待训练语音帧在时域上的声学特征,得到第一个特征向量;
步骤3.2:对训练集中的待训练语音帧执行第二次卷积操作,卷积核数为n2,学习待训练语音帧在时域上的声学特征,得到第二个特征向量;
步骤3.3:对训练集中的待训练语音帧执行第三次卷积操作,卷积核数为n3,学习待训练语音帧在时域上的声学特征,得到第三个特征向量;
步骤3.4:将第一个特征向量至第三个特征向量进行特征融合,获得特征融合后的时域特征向量;
步骤3.5:对特征融合后的时域特征向量执行卷积操作,学习和提取待训练语音帧的频域特征向量;
步骤3.6:使用长短时记忆层学习频域特征向量,获得学习后的特征向量;
步骤3.7:使用全连接层分类学习后的特征向量,获得待训练语音帧属于非噪声语音帧的概率值A,属于噪声语音帧的概率值B;
步骤3.8:对于每个待训练语音帧,若A大于B,则判断该待训练语音帧为非噪声语音帧;若A小于或等于B,则判断该待训练语音帧为噪声语音帧。


5.根据权利要求1-3中任意一个所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤5具体包括:
步骤5.1:根据时序顺序依次拼接训练后的深度神经网络模型输出的语音帧,获得拼接后的语音段;
步骤5.2:将拼接后的语音段中连续的非噪声语音帧标记为非噪声语音段,将拼接后的语音段中连续的噪声语音帧标记为噪声语音段;
步骤5.3:将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段,将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段,获得标记后的语音段;
步骤5.4:设定合并阈值a;
步骤5.5:统计标记后的语音段中两段非噪声语音段之间的采样点数量总和,如果两段非噪声语音段之间的采样点数量总和小于合并阈值a,则将标记后的语音段中两段非噪声语音段中间的噪声语音段标记为非噪声语音段,即合并该噪声语音段相邻的两段非噪声语音段;
步骤5.6:统计标记后的语音段中两段噪声语音段之间的采样点数量总和,如果两段噪声语音段之间的采样点数量总和小于合并阈值a,则将标记后的语音段中两段噪声语音段中间的非噪声语音段标记为噪声语音段...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:成都数之联科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1