语音端点检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:19553883 阅读:27 留言:0更新日期:2018-11-24 22:27
本申请揭示了一种语音端点检测方法、装置、计算机设备和存储介质,其中方法包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;当有连续X帧的能量值高于第一阈值,定义连续X帧的第一帧为激活帧;从所述激活帧开始,判断所述激活帧之后的帧是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。本申请根据产生语音信号的环境不同而设置不同的能量阈值,减小环境因素对判断语音信号端点检测带来的负面影响,使语音端点检测的结果更准确。

Speech endpoint detection methods, devices, computer equipment and storage media

This application discloses a voice endpoint detection method, device, computer equipment and storage medium, in which methods include: dividing voice signals into frames to obtain multiple frames; calculating the energy value of each frame; defining the first frame of a continuous X frame as an active frame when the energy value of a continuous X frame is higher than the first threshold; and activating from the said frame. At the beginning of the frame, it is judged whether the energy value of the continuous Y frame after the activated frame is higher than the second threshold, in which the second threshold is greater than the first threshold; if so, it is judged that the first frame of the continuous Y frame begins at the voice front-end point; and it is judged whether the energy value of the continuous B frame after the voice front-end point is lower than the first threshold. Two thresholds; if so, it is determined that the time point of the last frame of the continuous B frame is the voice back end point. This application sets different energy thresholds according to the different environments in which speech signals are produced, so as to reduce the negative impact of environmental factors on judging speech signal endpoint detection and make the result of speech endpoint detection more accurate.

【技术实现步骤摘要】
语音端点检测方法、装置、计算机设备和存储介质
本申请涉及到计算机
,特别是涉及到一种语音端点检测方法、装置、计算机设备和存储介质。
技术介绍
在会议智能系统中,对声道中的语音进行提取是一项关键技术,但在提取过程中会受到周围环境的干扰,如会议室中办公人员及物品的动作,设备仪器本身带来的噪音等。这些环境、设备等因素的干扰会使系统对语音端点的定位检测造成影响。所以提供一种新的语音端点检测方法是亟需解决的问题。
技术实现思路
本申请的主要目的为提供一种定位准确、可以减小环境因素干扰的语音端点检测方法、装置、计算机设备和存储介质。为了实现上述专利技术目的,本申请提出一种语音端点检测方法,包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;判断是否有连续X帧的能量值高于第一阈值;若是,定义所述连续X帧的第一帧为激活帧;从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。进一步地,所述计算每个帧的能量值的步骤,包括:对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算,得到所述目标帧的能量值。进一步地,所述判断是否有连续X帧的能量值高于第一阈值的步骤之前,包括:根据场景中无人的声音信号,计算出基础能量值;将所述基础能量值加上预设的环境能量值,得出所述第一阈值;将所述基础能量值加上预设的说话能量值,得出所述第二阈值。进一步地,所述语音端点检测方法还包括:根据不同规模的会议室中会议场景时无人说话的声音信号,计算出各规模的会议室对应的环境能量值;为所述各规模的会议室对应的环境能量值添加对应的环境标签,所述环境标签用于指示会议室的规模。进一步地,所述将所述基础能量值加上用户输入的环境能量值,得出第一阈值的步骤包括:根据所述语音信号当前所处的目标会议室的规模,确定目标环境标签;根据所述目标环境标签,调用对应的环境能量值;将所述基础能量值加上所述目标环境标签对应的环境能量值,得出第一阈值。进一步地,所述根据所述语音信号当前所处的目标会议室的规模,确定目标环境标签的步骤之前,还包括:获取所述目标会议室的面积;根据所述目标会议室的面积,确定所述目标会议室的规模。进一步地,所述确定所述连续B帧的最后一帧的时间点为语音后端点的步骤之后,包括:判断所述语音后端点后帧的能量是否小于所述第一阈值;若是,关闭语音端点检测功能。本申请还提供一种语音端点检测装置,包括:分帧模块,用于将语音信号进行分帧,得到多个帧;计算模块,用于计算每个帧的能量值;第一判断模块,用于判断是否有连续X帧的能量值高于第一阈值;激活帧模块,用于若有连续X帧的能量值高于第一阈值,定义所述连续X帧的第一帧为激活帧;第二判断模块,用于从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;前端点模块,用于若所述激活帧之后的帧有连续Y帧的能量值高于第二阈值,判定所述连续Y帧的第一帧处开始是语音前端点;第三判断模块,用于判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;后端点模块,用于若所述语音前端点之后有连续B帧的能量值低于第二阈值,确定所述连续B帧的最后一帧的时间点为语音后端点。本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本申请的语音端点检测方法、装置、计算机设备和存储介质,根据产生语音信号的环境不同而设置不同的能量阈值,减小环境因素对判断语音信号端点检测带来的负面影响,使语音端点检测的结果更准确。在计算能量值时,将语音信号的各帧进行聚类计算,使各帧的语音信号的能量值计算的更加合理,对应的获取的语音端点更加准确。通过自动获取会议室的大小,从而可以自动获取环境能量值,获取更加准确的语音能量阈值,对应的检测语音端点值更方便。附图说明图1为本申请一实施例的语音端点检测方法的流程示意图;图2为本申请一实施例的上述语音端点检测方法中环境能量值的设置方法的具体流程示意图;图3为本申请一实施例的语音端点检测方法的第一阈值的计算方法的具体流程示意图;图4为本申请一实施例的语音端点检测装置的结构示意框图;图5为本申请一实施例的语音端点检测装置的结构示意框图;图6为本申请一实施例的计算机设备的结构示意框图。本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式参照图1,本申请实施例提供一种语音端点检测方法,包括步骤:S1、将语音信号进行分帧,得到多个帧;S2、计算每个帧的能量值;S3、判断是否有连续X帧的能量值高于第一阈值;S4、若是,定义所述连续X帧的第一帧为激活帧;S5、从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;S6、若是,判定所述连续Y帧的第一帧处开始是语音前端点;S7、判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;S8、若是,确定所述连续B帧的最后一帧的时间点为语音后端点。如上述步骤S1所述,语音信号是系统实时采集会议室里的声音生成的语音信号。语音信号虽然具有时变特性,即语音信号的能量会因为会议室里的声音音量大小不同而发生变化。但是语音信号在一个短时间范围内(一般认为是10ms-30ms的短时间内),其基本特性基本保持不变即相对稳定。帧是语音信号中的一小段信号。将语音信号进行“短时分析”,则需要将语音信号分段来进行分析,即分帧。例如,将一段语音按照帧长进行时间分段,帧长取10ms-30ms。如一段语音时间长为20s,按照帧长为20ms进行分段,则帧数就被分为了20,000/20=1000帧。系统调用分帧函数将语音信号进行分帧,分帧函数包括enframe函数。如上述步骤S2所述,帧的能量值可以理解为对一段时间内语音响度的积分,场景安静没有声音,则帧的能量值非常低,场景中一直有人说话,那么对应的帧的能量值就比较高。定义帧的初始时刻为t0,结束时刻为tn,则该帧的能量值E即为区间[t0,tn]的积分值。计算公式为:依照该公式,分别计算出来每帧的能量值。如上述步骤S3所述,X是一个正整数,根据不同的场景而选择不同的具体的数值。在一个会议场景中,人不是保持每时每刻都有人在讲话,是停顿时间和说话时间间歇穿插着的。在停顿时间时,虽然没有人讲话,但是也会有一些小的声音,比如翻书、喝水、椅子挪动等这些声音,这些声音因声音分贝比较小,因此对应的能量值也比较小,第一阈值就与这些声音的能量正相关。如果会议室中的声音小于第一阈值,说明会议室中没有人发出动作的声音,判定会议室中没有人。先从第一帧开始判断,将第一帧的能量值与预设的第一阈值相比,如果第一帧的能量值高于第一阈值,则将第二帧的能量值与预设的第一阈值相比,如果第二帧的能量值高于第一阈值,则将第三帧的能量值与预设的第一阈值相比。如此连续比较X帧的能量值是否均高于第一阈值。在连续比较X帧的能量值是否本文档来自技高网...

【技术保护点】
1.一种语音端点检测方法,其特征在于,包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;判断是否有连续X帧的能量值高于第一阈值;若是,定义所述连续X帧的第一帧为激活帧;从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。

【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;判断是否有连续X帧的能量值高于第一阈值;若是,定义所述连续X帧的第一帧为激活帧;从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。2.如权利要求1所述的语音端点检测方法,其特征在于,所述计算每个帧的能量值的步骤,包括:对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算,得到所述目标帧的能量值。3.如权利要求1所述的语音端点检测方法,其特征在于,所述判断是否有连续X帧的能量值高于第一阈值的步骤之前,包括:根据场景中无人的声音信号,计算出基础能量值;将所述基础能量值加上预设的环境能量值,得出所述第一阈值;将所述基础能量值加上预设的说话能量值,得出所述第二阈值。4.如权利要求3所述的语音端点检测方法,其特征在于,所述方法还包括:根据不同规模的会议室中会议场景时无人说话的声音信号,计算出各规模的会议室对应的环境能量值;为所述各规模的会议室对应的环境能量值添加对应的环境标签,所述环境标签用于指示会议室的规模。5.如权利要求4所述的语音端点检测方法,其特征在于,所述将所述基础能量值加上用户输入的环境能量值,得出第一阈值的步骤包括:根据所述语音信号当前所处的目标会议室的规模,确定目标环境标签;根据所述目标环境标签,调用对应的环境能量值;将所述基础能量值加上所述目标环境标签对应的环...

【专利技术属性】
技术研发人员:王健宗于夕畔肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1