This application discloses a voice endpoint detection method, device, computer equipment and storage medium, in which methods include: dividing voice signals into frames to obtain multiple frames; calculating the energy value of each frame; defining the first frame of a continuous X frame as an active frame when the energy value of a continuous X frame is higher than the first threshold; and activating from the said frame. At the beginning of the frame, it is judged whether the energy value of the continuous Y frame after the activated frame is higher than the second threshold, in which the second threshold is greater than the first threshold; if so, it is judged that the first frame of the continuous Y frame begins at the voice front-end point; and it is judged whether the energy value of the continuous B frame after the voice front-end point is lower than the first threshold. Two thresholds; if so, it is determined that the time point of the last frame of the continuous B frame is the voice back end point. This application sets different energy thresholds according to the different environments in which speech signals are produced, so as to reduce the negative impact of environmental factors on judging speech signal endpoint detection and make the result of speech endpoint detection more accurate.
【技术实现步骤摘要】
语音端点检测方法、装置、计算机设备和存储介质
本申请涉及到计算机
,特别是涉及到一种语音端点检测方法、装置、计算机设备和存储介质。
技术介绍
在会议智能系统中,对声道中的语音进行提取是一项关键技术,但在提取过程中会受到周围环境的干扰,如会议室中办公人员及物品的动作,设备仪器本身带来的噪音等。这些环境、设备等因素的干扰会使系统对语音端点的定位检测造成影响。所以提供一种新的语音端点检测方法是亟需解决的问题。
技术实现思路
本申请的主要目的为提供一种定位准确、可以减小环境因素干扰的语音端点检测方法、装置、计算机设备和存储介质。为了实现上述专利技术目的,本申请提出一种语音端点检测方法,包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;判断是否有连续X帧的能量值高于第一阈值;若是,定义所述连续X帧的第一帧为激活帧;从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。进一步地,所述计算每个帧的能量值的步骤,包括:对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算,得到所述目标帧的能量值。进一步地,所述判断是否有连续X帧的能量值高于第一阈值的步骤之前,包括:根据场景中无人的声音信号,计算出基础能量值;将所述基础能量值加上预设的环境能量值,得出所述第一阈值;将所述基础能量值加上预设的说话能量值,得出所述第二阈值。进一步地,所述语音端点检测方法还包括:根据 ...
【技术保护点】
1.一种语音端点检测方法,其特征在于,包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;判断是否有连续X帧的能量值高于第一阈值;若是,定义所述连续X帧的第一帧为激活帧;从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。
【技术特征摘要】
1.一种语音端点检测方法,其特征在于,包括:将语音信号进行分帧,得到多个帧;计算每个帧的能量值;判断是否有连续X帧的能量值高于第一阈值;若是,定义所述连续X帧的第一帧为激活帧;从所述激活帧开始,判断是否有连续Y帧的能量值高于第二阈值,其中,所述第二阈值大于所述第一阈值;若是,判定所述连续Y帧的第一帧处开始是语音前端点;判断所述语音前端点之后是否有连续B帧的能量值低于第二阈值;若是,确定所述连续B帧的最后一帧的时间点为语音后端点。2.如权利要求1所述的语音端点检测方法,其特征在于,所述计算每个帧的能量值的步骤,包括:对各帧中的目标帧和所述目标帧之后的n帧的能量值进行平均计算,得到所述目标帧的能量值。3.如权利要求1所述的语音端点检测方法,其特征在于,所述判断是否有连续X帧的能量值高于第一阈值的步骤之前,包括:根据场景中无人的声音信号,计算出基础能量值;将所述基础能量值加上预设的环境能量值,得出所述第一阈值;将所述基础能量值加上预设的说话能量值,得出所述第二阈值。4.如权利要求3所述的语音端点检测方法,其特征在于,所述方法还包括:根据不同规模的会议室中会议场景时无人说话的声音信号,计算出各规模的会议室对应的环境能量值;为所述各规模的会议室对应的环境能量值添加对应的环境标签,所述环境标签用于指示会议室的规模。5.如权利要求4所述的语音端点检测方法,其特征在于,所述将所述基础能量值加上用户输入的环境能量值,得出第一阈值的步骤包括:根据所述语音信号当前所处的目标会议室的规模,确定目标环境标签;根据所述目标环境标签,调用对应的环境能量值;将所述基础能量值加上所述目标环境标签对应的环...
【专利技术属性】
技术研发人员:王健宗,于夕畔,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。