语音端点检测方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:28042029 阅读:32 留言:0更新日期:2021-04-09 23:25
本申请涉及人工智能,提供一种语音端点检测方法、装置、设备及计算机可读存储介质,该方法包括:获取待检测的音频信号以及在采集音频信号时所采集到的视频数据和反射波信号;确定音频信号的频谱数据,并根据频谱数据确定音频信号的频谱特征向量;提取视频数据中的嘴唇部位所处的图像区域,并根据每个图像区域确定视频数据的视频特征向量;确定反射波信号与预设发射波信号之间的相位差,并根据相位差确定反射波信号的反射波向量;对频谱特征向量、视频特征向量和反射波向量进行融合,得到目标特征向量;将目标特征向量输入预先训练好的语音端点检测模型,得到音频信号的多个语音端点。本申请能够提高语音端点检测的准确率。

【技术实现步骤摘要】
语音端点检测方法、装置、设备及计算机可读存储介质
本申请涉及人工智能的
,尤其涉及一种语音端点检测方法、装置、设备及计算机可读存储介质。
技术介绍
语音端点检测(VoiceactivityDetection,VAD)也称语音活动检测,是指从一段音频信号中定位出语音的开始点和结束点,从而区分音频信号中的语音部分和非语音部分的技术。研究表明,在噪声环境下或者在讲话人发音失真、发音速度和音调改变时,都会产生Lombard/Loud效应,此时应用语音端点检测容易出现识别错误。目前,研究者也尝试通过机器学习或深度学习提取声音特征来进行语音端点检测,然而现实生活中音频信号中的背景噪音较为复杂,例如音频信号中常出现他人的声音特征干扰,检测准确率难以保证。因此,如何提高语音端点检测的准确率成为了亟需解决的问题。
技术实现思路
本申请的主要目的在于提供一种语音端点检测方法、装置、设备及计算机可读存储介质,旨在提高语音端点检测的准确率。第一方面,本申请提供一种语音端点检测方法,包括:获取待检测的音频信号以及在采集所述音频信本文档来自技高网...

【技术保护点】
1.一种语音端点检测方法,其特征在于,包括:/n获取待检测的音频信号以及在采集所述音频信号时所采集到的视频数据和反射波信号,所述反射波信号是对用户的嘴唇部位进行声波探测所采集到的;/n确定所述音频信号的频谱数据,并根据所述频谱数据确定所述音频信号的频谱特征向量;/n提取所述视频数据中的嘴唇部位所处的图像区域,并根据每个所述图像区域确定所述视频数据的视频特征向量;/n确定所述反射波信号与预设发射波信号之间的相位差,并根据所述相位差确定所述反射波信号的反射波向量;/n对所述频谱特征向量、所述视频特征向量和所述反射波向量进行融合,得到目标特征向量;/n将所述目标特征向量输入预先训练好的语音端点检测模...

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:
获取待检测的音频信号以及在采集所述音频信号时所采集到的视频数据和反射波信号,所述反射波信号是对用户的嘴唇部位进行声波探测所采集到的;
确定所述音频信号的频谱数据,并根据所述频谱数据确定所述音频信号的频谱特征向量;
提取所述视频数据中的嘴唇部位所处的图像区域,并根据每个所述图像区域确定所述视频数据的视频特征向量;
确定所述反射波信号与预设发射波信号之间的相位差,并根据所述相位差确定所述反射波信号的反射波向量;
对所述频谱特征向量、所述视频特征向量和所述反射波向量进行融合,得到目标特征向量;
将所述目标特征向量输入预先训练好的语音端点检测模型,得到所述音频信号的多个语音端点。


2.如权利要求1所述的语音端点检测方法,其特征在于,所述根据所述频谱数据确定所述音频信号的频谱特征向量,包括:
根据所述频谱数据的多个第一时间戳,确定每个所述第一时间戳各自对应的特征向量;
对每个所述第一时间戳各自对应的特征向量进行卷积池化处理;
将经过卷积池化处理的每个所述第一时间戳各自对应的特征向量进行拼接,得到所述频谱数据对应的频谱特征向量。


3.如权利要求2所述的语音端点检测方法,其特征在于,所述根据所述频谱数据的多个第一时间戳,确定每个所述第一时间戳各自对应的特征向量,包括:
确定所述频谱数据的多个第一时间戳,并确定每个所述第一时间戳各自对应的多帧频谱数据;
根据每个所述第一时间戳各自对应的多帧频谱数据的特征参数,确定每个所述第一时间戳各自对应的特征向量。


4.如权利要求1所述的语音端点检测方法,其特征在于,所述确定所述反射波信号与预设发射波信号之间的相位差,包括:
通过预设参数因子对所述反射波信号进行耦合;
通过低通滤波器对耦合后的反射波信号进行过滤处理;
根据经过滤处理后的反射波信号,计算所述反射波信号与预设发射波信号之间的相位差。


5.如权利要求1-4中任一项所述的语音端点检测方法,其特征在于,所述根据所述相位差确定所述反射波信号的反射波向量,包括:
根据所述反射波信号的多个第二时间戳,确定每个所述第二时间戳各自对应的相位差;
根据每个所述第二时间戳各自对应的相...

【专利技术属性】
技术研发人员:罗剑王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1