【技术实现步骤摘要】
有效语音片段检测方法、相关设备及可读存储介质
本申请涉及音频信号处理
,更具体的说,是涉及一种有效语音片段检测方法、相关设备及可读存储介质。
技术介绍
在音频信号处理
,往往需要采用VAD(VoiceActivityDetection,语音活动检测)技术检测音频信号中的语音片段,并针对不同的音频信号处理需求,对检测出的语音片段进行语音识别、语义识别等处理。以人机对话场景(如,智能客服中虚拟智能机器客服和真人之间的对话场景)为例,一个完整的人机对话过程主要包括三个步骤,第一步,检测用户音频信号中的语音片段;第二步,对检测出的语音片段进行语义识别,得到用户音频信号的语义内容;第三步,根据用户音频信号的语义内容回应用户。但是,目前的VAD技术,往往会将音频信号中包含的没有语音的环境噪声、人为噪声(如哄笑声、咳嗽声等)、长停顿的无意义语音(如一连串的语气词、停顿词、气流声等)等检测为语音片段,且将检测出的语音片段均作为有效语音片段,导致有效语音片段检测不准确,从而影响音频信号处理的最终效果。以人机对话场景为例,如 ...
【技术保护点】
1.一种有效语音片段检测方法,其特征在于,包括:/n获取待检测的音频信号;/n对所述音频信号进行语音片段检测,得到至少一个语音片段;/n针对每个语音片段,至少基于所述语音片段对应的文本内容,对所述语音片段进行有效性检测,判断所述语音片段是否为有效语音片段。/n
【技术特征摘要】
1.一种有效语音片段检测方法,其特征在于,包括:
获取待检测的音频信号;
对所述音频信号进行语音片段检测,得到至少一个语音片段;
针对每个语音片段,至少基于所述语音片段对应的文本内容,对所述语音片段进行有效性检测,判断所述语音片段是否为有效语音片段。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频信号进行语音片段检测,得到至少一个语音片段,包括:
针对所述音频信号中每一音频信号帧,确定所述音频信号帧为预置各声学状态的概率;
基于所述音频信号帧为预置各声学状态的概率,得到所述音频信号帧的语音判断结果,所述音频信号帧的语音判断结果用于指示所述音频信号帧为语音还是非语音;
基于各音频信号帧的语音判断结果,得到至少一个语音片段。
3.根据权利要求2所述的方法,其特征在于,所述确定所述音频信号帧为预置各声学状态的概率,包括:
对所述音频信号帧进行特征提取,得到所述音频信号帧的声学特征;
将所述音频信号帧的声学特征输入声学模型,所述声学模型对所述音频信号帧的声学特征进行解码,得到所述音频信号帧为预置各声学状态的概率;
所述声学模型是以训练用音频信号的特征为训练样本,以训练用音频信号标注的声学状态为样本标签训练得到的。
4.根据权利要求2所述的方法,其特征在于,所述基于所述音频信号帧为预置各声学状态的概率,得到所述音频信号帧的语音判断结果,包括:
基于所述音频信号帧为预置各声学状态的概率,得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率;
基于所述音频信号帧为语音的概率和所述音频信号帧为非语音的概率,得到所述音频信号帧的语音判断结果。
5.根据权利要求4所述的方法,其特征在于,所述基于所述音频信号帧为预置各声学状态的概率,得到所述音频信号帧为语音的概率以及所述音频信号帧为非语音的概率,包括:
将所述音频信号帧为预置各声学状态的概率中,对应语音的声学状态的概率相加,得到所述音频信号帧为语音的概率;对应非语音的声学状态的概率相加,得到所述音频信号帧为非语音的概率。
6.根据权利要求1所述的方法,其特征在于,所述语音片段对应的文本内容是采用如下方式确定的:
确定所述语音片段对应的至少一个音频信号帧;
针对每个音频信号帧,获取所述音频信号帧为预置各声学状态的概率,各音频信号帧为预置各声学状态的概率组成所述语音片段对应的声学状态序列;
对所述语音片段对应的声学状态序列进行解码,得到所述语音片段对应的文本内容。
7.根据权利要求1所述的方法,其特征在于,所述至少基于所述语音片段对应的文本内容,对所述语音片段进行有效性检测,判断所述语音片段是否为有效语音片段,包括:
针对每个音频信号帧,获取所述音频信号帧的声学特征,将各音频信号帧的声学特征进行组合,得到所述语音片段的特征;
基于所述语音...
【专利技术属性】
技术研发人员:王庆然,万根顺,高建清,刘聪,王智国,胡国平,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。