语音端点检测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:23606794 阅读:42 留言:0更新日期:2020-03-28 07:23
本申请关于一种语音端点检测方法、装置、计算机设备及存储介质,涉及语音识别技术领域。所述方法包括:对待检测语音进行预检测,以从待检测语音中提取包含语音信号和非稳态噪声信号的第一混合音片段,对第一混合音片段进行音高检测,以从第一混合音片段中提取包含非稳态噪声信号和清音信号的第二混合音片段和浊音信号片段,根据第一混合音片段中的第一个浊音信号片段的起始点,确定第一混合音片段中的语音起始端点,根据第一混合音片段中的最后一个浊音信号片段的结束点,确定第一混合音片段中的语音结束端点。通过上述方法,使得在语音信号检测过程中,有效地区分非稳态噪声信号和有效语音信号,提高语音端点检测的准确性。

Speech endpoint detection method, device, computer equipment and storage medium

【技术实现步骤摘要】
语音端点检测方法、装置、计算机设备及存储介质
本申请涉及语音识别
,特别涉及语音端点检测方法、装置、计算机设备及存储介质。
技术介绍
在语音信号处理中,需要从包含语音的一段信号中确定出语音信号的起始点以及终止点,以采集真正的语音数据,减少语音信号处理系统的运算量,从而提高系统处理效率。在相关技术中,通常基于语音信号和噪声的能量、过零率、倒谱等特征的不同设计端点检测算法,以实现区分噪声和语音信号的目的。上述相关技术中,在区分平稳噪声信号和有效语音信号中表现较好,但对于存在非稳态噪声信号的语音信号,由于非稳态噪声信号会对语音信号中的能量、过零率、倒谱等特征造成影响,从而不能有效地区分非稳态噪声信号和有效语音信号,造成语音信号处理准确性较低。
技术实现思路
本申请实施例提供了一种语音端点检测方法、装置、计算机设备及存储介质,在语音信号检测过程中,有效地区分非稳态噪声信号和有效语音信号,提高语音信号处理的准确性,该技术方案如下:一方面,提供了一种语音端点检测方法,所述方法包括:对待检测语音进行预检测,以从所述待检测语音中提取第一混合音片段,所述第一混合音片段包含语音信号和非稳态噪声信号;对所述第一混合音片段进行音高检测,以从所述第一混合音片段中提取第二混合音片段和浊音信号片段,所述第二混合音片段中包含所述非稳态噪声信号和清音信号;根据所述第一混合音片段中的第一个浊音信号片段的起始点,确定所述第一混合音片段中的语音起始端点;根据所述第一混合音片段中的最后一个浊音信号片段的结束点,确定所述第一混合音片段中的语音结束端点。可选的,所述根据所述第一混合音片段中的第一个浊音信号片段的起始点,确定所述第一混合音片段中的语音起始端点,包括:当所述第一个浊音信号片段前存在所述第二混合音片段时,在所述第一个浊音信号片段前的预定时域范围内检测能量值;若在所述预定时域范围内存在能量波谷,分别获取所述第二混合音片段的起始点与所述第一个浊音信号片段的距离关系以及所述第一个浊音信号片段前指定时长的时间点与所述第一个浊音信号片段的距离关系;确定所述第二混合音片段的起始点与所述第一个浊音信号片段前指定时长的时间点中距离所述第一浊音信号片段最近的一个为所述语音起始端点。可选的,所述方法还包括:若在所述预定时域范围内不存在能量波谷,则将所述第一个浊音信号片段的起始点,作为所述语音起始端点。可选的,所述根据所述第一混合音片段中的最后一个浊音信号片段的结束点,确定所述第一混合音片段中的语音结束端点,包括:将所述最后一个浊音信号片段的结束点,作为所述语音结束端点。可选的,所述对所述第一混合音片段进行音高检测,以从所述第一混合音片段中提取第二混合音片段和浊音信号片段,包括:对所述第一混合音片段进行频率检测,获得所述第一混合音片段的自相关信息;提取所述第一混合音片段中,自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为所述浊音信号片段;将所述第一混合音片段中,除了所述浊音信号片段之外的语音片段作为所述第二混合音片段。可选的,所述对待检测语音进行预检测,以从所述待检测语音中提取第一混合音片段,包括:对所述待检测语音进行分帧处理,得到多个待检测语音帧,每个所述待检测语音帧中包含数量相同的采样点;获取各个所述待检测语音帧的能量值,所述待检测语音帧的能量值是所述待检测语音帧中各个所述采样点的能量值之和;根据各个所述待检测语音帧的能量值与预设能量值阈值的关系,从所述待检测语音中提取所述第一混合音片段。可选的,所述根据各个所述待检测语音帧的能量值与预设能量值阈值的关系,从所述待检测语音中提取所述第一混合音片段,包括:根据各个所述待检测语音帧的能量值与预设能量值阈值的关系,从所述待检测语音中确定至少一个第一类型时间点和至少一个第二类型时间点;所述第一类型时间点是前连续n帧的能量值都小于所述预设能量阈值,且后连续n帧的能量值都大于或等于所述预设能量阈值的时间点;所述第二类型时间点是前连续n帧的能量值都大于或等于所述预设能量阈值,后连续n帧的能量值都小于所述预设能量阈值的时间点;将目标时间点以及在所述目标时间点之后且在与所述目标时间点相邻的所述第二类型时间点之前的语音片段获取为一个所述第一混合音片段;所述目标时间点是所述至少一个第一类型时间点中的任意一个时间点。一方面,提供了一种语音端点检测装置,所述装置包括:预检测模块,用于对待检测语音进行预检测,以从所述待检测语音中提取第一混合音片段,所述第一混合音片段包含语音信号和非稳态噪声信号;音高检测模块,用于对所述第一混合音片段进行音高检测,以从所述第一混合音片段中提取第二混合音片段和浊音信号片段,所述第二混合音片段中包含所述非稳态噪声信号和清音信号;起始端点确定模块,用于根据所述第一混合音片段中的第一个浊音信号片段的起始点,确定所述第一混合音片段中的语音起始端点;结束端点确定模块,用于根据所述第一混合音片段中的最后一个浊音信号片段的结束点,确定所述第一混合音片段中的语音结束端点。可选的,所述起始端点确定模块,包括:第一检测子模块,用于当所述第一个浊音信号片段前存在所述第二混合音片段时,在所述第一个浊音信号片段前的预定时域范围内检测能量值;第一获取子模块,用于在所述预定时域范围内存在能量波谷时,分别获取所述第二混合音片段的起始点与所述第一个浊音信号片段的距离关系以及所述第一个浊音信号片段前指定时长的时间点与所述第一个浊音信号的距离关系;第一确定子模块,用于确定所述第二混合音片段的起始点与所述第一个浊音信号片段前指定时长的时间点中距离所述第一浊音信号片段最近的一个为所述语音起始端点。可选的,所述起始端点确定模块,还包括:第二确定子模块,用于在所述预定时域范围内不存在能量波谷时,将所述第一个浊音信号片段的起始点,作为所述语音起始端点。可选的,所述结束端点确定模块,用于,将所述最后一个浊音信号片段的结束点,作为所述语音结束端点。可选的,所述音高检测模块,包括:第二检测子模块,用于对所述第一混合音片段进行频率检测,获得所述第一混合音片段的自相关信息;第一提取子模块,用于提取所述第一混合音片段中,自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为所述浊音信号片段;确定子模块,用于将所述第一混合音片段中,除了所述浊音信号片段之外的语音片段作为所述第二混合音片段。可选的,所述预检测模块,包括:处理子模块,用于对所述待检测语音进行分帧处理,得到多个待检测语音帧,每个所述待检测语音帧中包含数量相同的采样点;第二获取子模块,用于获取各个所述待检测语音帧的能量值,所述待检测语音帧的能量值是所述待检测语音帧中各个所述采样点的能量值之和;第二提取子模块,用于根据各个本文档来自技高网...

【技术保护点】
1.一种语音端点检测方法,其特征在于,所述方法包括:/n对待检测语音进行预检测,以从所述待检测语音中提取第一混合音片段,所述第一混合音片段包含语音信号和非稳态噪声信号;/n对所述第一混合音片段进行音高检测,以从所述第一混合音片段中提取第二混合音片段和浊音信号片段,所述第二混合音片段中包含所述非稳态噪声信号和清音信号;/n根据所述第一混合音片段中的第一个浊音信号片段的起始点,确定所述第一混合音片段中的语音起始端点;/n根据所述第一混合音片段中的最后一个浊音信号片段的结束点,确定所述第一混合音片段中的语音结束端点。/n

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,所述方法包括:
对待检测语音进行预检测,以从所述待检测语音中提取第一混合音片段,所述第一混合音片段包含语音信号和非稳态噪声信号;
对所述第一混合音片段进行音高检测,以从所述第一混合音片段中提取第二混合音片段和浊音信号片段,所述第二混合音片段中包含所述非稳态噪声信号和清音信号;
根据所述第一混合音片段中的第一个浊音信号片段的起始点,确定所述第一混合音片段中的语音起始端点;
根据所述第一混合音片段中的最后一个浊音信号片段的结束点,确定所述第一混合音片段中的语音结束端点。


2.根据权利要求1所述的方法,其特征在于,所述根据所述第一混合音片段中的第一个浊音信号片段的起始点,确定所述第一混合音片段中的语音起始端点,包括:
当所述第一个浊音信号片段前存在所述第二混合音片段时,在所述第一个浊音信号片段前的预定时域范围内检测能量值;
若在所述预定时域范围内存在能量波谷,分别获取所述第二混合音片段的起始点与所述第一个浊音信号片段的距离关系以及所述第一个浊音信号片段前指定时长的时间点与所述第一个浊音信号片段的距离关系;
确定所述第二混合音片段的起始点与所述第一个浊音信号片段前指定时长的时间点中距离所述第一浊音信号片段最近的一个为所述语音起始端点。


3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若在所述预定时域范围内不存在能量波谷,则将所述第一个浊音信号片段的起始点,作为所述语音起始端点。


4.根据权利要求1所述的方法,其特征在于,所述根据所述第一混合音片段中的最后一个浊音信号片段的结束点,确定所述第一混合音片段中的语音结束端点,包括:
将所述最后一个浊音信号片段的结束点,作为所述语音结束端点。


5.根据权利要求1所述的方法,其特征在于,所述对所述第一混合音片段进行音高检测,以从所述第一混合音片段中提取第二混合音片段和浊音信号片段,包括:
对所述第一混合音片段进行频率检测,获得所述第一混合音片段的自相关信息;
提取所述第一混合音片段中,所述自相关信息的峰值高于预设阈值且处于语音信号基音频率范围内的语音片段作为所述浊音信号片段;
将所述第一混合音片段中,除了所述浊音信号片段之外的语音片段作为所述第二混合音片段。


6.根据权利要求1所述的方法,其特征在于,所述对待检测语音进行预检测,以从所述待检测语音中提取第一混合音片段,包括:
对所述待检测语音进行...

【专利技术属性】
技术研发人员:肖纯智劳振锋
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1