【技术实现步骤摘要】
一种基于深度学习的语音端点检测方法及系统
本专利技术涉及语音信号处理领域,具体地,涉及一种基于深度学习的语音端点检测方法及系统。
技术介绍
语音是信息交互的重要方式,语音端点检测是指在连续声音信号中找出语音部分的起始点和终止点,是一种运用在语音前端的处理技术,通过语音端点检测算法提取出含有语音的音频数据,为后期声源定位、语音识别、语音编码等任务提供有效的信息。随着人工智能的发展,人们希望通过“语音”实现人机交互,辨别说话人身份及识别具体语音内容,语音端点检测是其关键环节。在通信领域,需要尽可能地降低信号静音段的数据传输效率以保证接受语音信号的质量,此时准确的信号端点检测也是不可少的。另外,国家安全保密工作中的通信线路监控工作中语音端点检测也起着至关重要的作用,在节约资源成本的同时不影响信息检测。传统的语音端点检测的主要方法包括:(1)基于单一门限或多门限判决的端点检测方法。该类方法主要通过统计检验某种特征参数(短时能量,过零率,信息熵等)来区分噪音和非噪音。例如:基于短时能量的端点检测方法首先将整段语音划分成语音帧,之后计算语音帧的短时能量,最后判断短时能量是否大于既定阈值。大于阈值的语音帧则判定为非噪音,小于阈值的语音帧则判定为噪音。(2)基于统计模型的语音端点检测方法,主要包括以下步骤:接收输入的待检测语音信号;分帧提取待检测语音信号的第一语音特征信息,并对第一语音特征信息进行抗噪处理以生成待检测语音信号的第二语音特征信息;根据第二语音特征信息和声学模型获得待检测语音信号的识别结果。传统的语音端点
【技术保护点】
1.一种基于深度学习的语音端点检测方法,其特征在于,所述方法包括:/n步骤1:利用收集的音频数据生成样本音频数据;/n步骤2:分帧处理样本音频数据获得待训练语音帧,根据待训练语音帧中是否包含语音,将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧,若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集;/n步骤3:利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;/n步骤4:将端点待检测语音数据输入训练后的深度神经网络模型,训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧;/n步骤5:基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果。/n
【技术特征摘要】
1.一种基于深度学习的语音端点检测方法,其特征在于,所述方法包括:
步骤1:利用收集的音频数据生成样本音频数据;
步骤2:分帧处理样本音频数据获得待训练语音帧,根据待训练语音帧中是否包含语音,将待训练语音帧划分为包含语音的待训练非噪声语音帧和不包含语音的待训练噪声语音帧,若干待训练非噪声语音帧和若干待训练噪声语音帧构成训练集;
步骤3:利用训练集训练深度神经网络模型,获得训练后的深度神经网络模型;
步骤4:将端点待检测语音数据输入训练后的深度神经网络模型,训练后的深度神经网络模型输出端点待检测语音数据中的所有非噪声语音帧和噪声语音帧;
步骤5:基于非噪声语音帧和噪声语音帧,获得端点待检测语音数据中的非噪声语音段和噪声语音段,提取所有的非噪声语音段在端点待检测语音数据中的起始坐标索引和结束坐标索引,获得待检测语音数据的语音端点检测结果。
2.根据权利要求1所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:收集语音音频数据和噪声音频数据;
步骤1.2:对收集的音频数据执行升采样或降采样操作,统一语音音频数据和噪声音频数据的采样率;
步骤1.3:从收集的音频数据中随机提取若干段语音音频数据和一段噪声音频数据;
步骤1.4:融合提取的语音音频数据和噪声音频数据;
步骤1.5:重复执行若干次步骤1.3-步骤1.4,生成样本音频数据。
3.根据权利要求1所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤2具体包括:
步骤2.1:以预设的单位时间分帧处理样本音频数据,得到待训练语音帧;
步骤2.2:判断待训练语音帧中是否包含语音,将包含语音的待训练语音帧标记为第一类别即待训练非噪声语音帧,将不包含语音的待训练语音帧划分为第二类别即待训练噪声语音帧;
步骤2.3:提取若干个待训练非噪声语音帧作为正样本,提取多个待训练噪声语音帧作为负样本,正样本和负样本共同构成训练集。
4.根据权利要求1-3中任意一个所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤3具体包括:
步骤3.1:对训练集中的待训练语音帧执行第一次卷积操作,卷积核数为n1,学习待训练语音帧在时域上的声学特征,得到第一个特征向量;
步骤3.2:对训练集中的待训练语音帧执行第二次卷积操作,卷积核数为n2,学习待训练语音帧在时域上的声学特征,得到第二个特征向量;
步骤3.3:对训练集中的待训练语音帧执行第三次卷积操作,卷积核数为n3,学习待训练语音帧在时域上的声学特征,得到第三个特征向量;
步骤3.4:将第一个特征向量至第三个特征向量进行特征融合,获得特征融合后的时域特征向量;
步骤3.5:对特征融合后的时域特征向量执行卷积操作,学习和提取待训练语音帧的频域特征向量;
步骤3.6:使用长短时记忆层学习频域特征向量,获得学习后的特征向量;
步骤3.7:使用全连接层分类学习后的特征向量,获得待训练语音帧属于非噪声语音帧的概率值A,属于噪声语音帧的概率值B;
步骤3.8:对于每个待训练语音帧,若A大于B,则判断该待训练语音帧为非噪声语音帧;若A小于或等于B,则判断该待训练语音帧为噪声语音帧。
5.根据权利要求1-3中任意一个所述的一种基于深度学习的语音端点检测方法,其特征在于,所述步骤5具体包括:
步骤5.1:根据时序顺序依次拼接训练后的深度神经网络模型输出的语音帧,获得拼接后的语音段;
步骤5.2:将拼接后的语音段中连续的非噪声语音帧标记为非噪声语音段,将拼接后的语音段中连续的噪声语音帧标记为噪声语音段;
步骤5.3:将两段非噪声语音段之间的单一噪声语音帧标记为噪声语音段,将两噪声语音段之间的单一非噪声语音帧标记为非噪声语音段,获得标记后的语音段;
步骤5.4:设定合并阈值a;
步骤5.5:统计标记后的语音段中两段非噪声语音段之间的采样点数量总和,如果两段非噪声语音段之间的采样点数量总和小于合并阈值a,则将标记后的语音段中两段非噪声语音段中间的噪声语音段标记为非噪声语音段,即合并该噪声语音段相邻的两段非噪声语音段;
步骤5.6:统计标记后的语音段中两段噪声语音段之间的采样点数量总和,如果两段噪声语音段之间的采样点数量总和小于合并阈值a,则将标记后的语音段中两段噪声语音段中间的非噪声语音段标记为噪声语音段...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:成都数之联科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。