语音活动检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:43913612 阅读:21 留言:0更新日期:2025-01-03 13:20
本申请涉及一种语音活动检测方法、装置、计算机设备和存储介质。该方法包括:获取音频采样数据的各音频帧的声学特征;将各音频帧的声学特征输入到预训练的语音活动检测模型,得到长短期记忆网络输出的第一中间特征张量以及门控循环单元输出的第二中间特征张量;将第一中间特征张量输入到第一多头自注意力模块,得到第一输出特征,权重化第一输出特征,得到第一增强特征;将第二中间特征张量输入到第二多头自注意力模块,得到第二输出特征,权重化第二输出特征,得到第二增强特征;基于向量化注意力权重将第一增强特征和第二增强特征进行特征聚合,得到聚合特征;根据聚合特征进行语音活动检测。采用本方法能够有效提高语音活动检测的能力。

【技术实现步骤摘要】

本申请涉及语音活动处理,特别是涉及一种语音活动检测方法、装置、计算机设备和存储介质


技术介绍

1、随着移动互联网时代的到来,人们对智能化的需求促进智能语音技术获得了很大的发展,越来越多的智能设备开始使用智能语音技术来完成交互,比如智能汽车,智能手机以及智能音箱等。语音活动检测技术是语音交互的关键步骤之一。语音活动检测技术是语音处理系统、消费电子产品、多媒体系统等领域的核心技术之一。语音活动检测不仅涉及到数字信号处理的问题,还涉及到听觉感知特性和人类的语音特征。同时,噪声的多样性增加了语音活动检测的困难。从带有噪声的语音信号中判断出语音信号的起点和终点是非常困难的。

2、目前,语音活动检测技术包括基于能量的方法、基于过零率的方法、基于统计模型的方法以及基于深度学习的方法等。其中,基于能量的方法和基于过零率的方法都需要确定启发式的阈值,再将特征值与阈值比较,得到估计的结果,从而实现语音活动检测。虽然这种方法容易实现,但这种方法在噪声环境下处理效果不明显。基于统计模型的方法不仅需要假设语音及非语音的分布特性,并且需要确定满足马尔可夫假设。这种方法不本文档来自技高网...

【技术保护点】

1.一种语音活动检测方法,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述第一中间特征张量输入到第一多头自注意力模块,得到第一输出特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述第二中间特征张量输入到第二多头自注意力模块,得到第二输出特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于向量化注意力权重将所述第一增强特征和所述第二增强特征进行特征聚合,得到聚合特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述权重向量基于设定的维度向量以及修正线性单元激活函数和归一化指数函数确定。...

【技术特征摘要】

1.一种语音活动检测方法,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述第一中间特征张量输入到第一多头自注意力模块,得到第一输出特征,包括:

3.根据权利要求1所述的方法,其特征在于,所述将所述第二中间特征张量输入到第二多头自注意力模块,得到第二输出特征,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于向量化注意力权重将所述第一增强特征和所述第二增强特征进行特征聚合,得到聚合特征,包括:

5.根据权利要求4所述的方法,其特征在于,所述权重向量基于设定的维度向量以及修正线性单元激活函数和归一化指数函数确...

【专利技术属性】
技术研发人员:谭应伟张人杰丁雪枫
申请(专利权)人:大众问问北京信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1